很多网站的连接层次比较深爬虫很难抓取到,站点地图可以方便爬虫抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在根目录下并命名sitemap,为爬虫指路增加网站重要内容页面的收录,站点地图就是根据网站的结构、框架、内容,生成的导航网页文件。站点地图对于提高用户体验有好处,它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。
站点地图是一种指明信息资源方位与联系,并且具有导航功能的可视化工具,其关键在于信息的获取、信息的检索、信息的表示和信息的关联四个方面。简而言之就是以类似地图的形式将主页的信息按照类日罗列起来,并提供相应的链接,它可以为用户提供主页的整体信息,是用户准确找到自己所需信息的快速入口。
网上有很多站点地图生成的方法,比如在线生成、软件生成等,sitemap地图可以提交给各大搜索引擎,从而使搜索引擎更好的对网站页面进行 收录,我们也可以通过robots.txt来告诉搜索引擎地图的位置。将制作好的网站地图上传至网站根目录下,最关键是把网站地图链接地址加入在 robots文件中以及做好网站地图在页面方便蜘蛛抓取的位置,一般把网站地图放在页眉和页脚位置。
1、普通html格式的网站地图
它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。
2、XML Sitemap通常称为Sitemap(首字母大写 S)
简单来讲Sitemap就是网站上链接的列表,制作Sitemap并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面,这是一种网站与搜索引擎对话的好方式。
3、搜索引擎识别的地图
因为每个搜索引擎主要识别地图格式效果不同,建议分别采用以下格式:
百度:建议使用txt和xml格式的网站地图
Google:建议使用Xml格式的网站地图
Yahoo:建议使用txt格式的网站地图
站点地图不仅仅是给搜索引擎来看的,根本目的也是方便浏览者,所以网站地图最好兼顾搜索引擎的同时也要兼顾浏览者。我们通常为一个网站建三个站点地图,sitemap.html页面精美简洁大方,让浏览者方便找到目标页面的同时也心情愉悦。XML认真研究自己的网站把重要的页面标注出来,把不需要纳入的页面加NOFOLLOW这样更有利于搜索引擎辨别。URLLIST.TXT或者ROBOTS.TXT如果方便也可以做一下,yahoo等搜索引擎比较认可,谷歌也有这个项目。另外在robots文本里要写好网站地图位置即格式。