搜索引擎蜘蛛智能捕获网站吗? 如何引导蜘蛛?
来源:
2021-02-05
搜索引擎蜘蛛智能捕获网站吗? 如何引导蜘蛛?
搜索引擎不断升级算法,但毕竟是程序,所以在布局网站结构时必须尽量让搜索引擎蜘蛛理解。 每个搜索引擎的蜘蛛都有自己的名字,在捕捉网页时,会在网站上显示自己的身份。 搜索引擎蜘蛛在捕获网页时发送请求。 此请求包含一个名为“用户代理”的字段,用于标识此搜索引擎的蜘蛛身份。
比如谷歌搜索引擎蜘蛛的标志是谷歌bot,百度搜索引擎蜘蛛的标志是百度Spider,雅虎搜索引擎蜘蛛的标志是Inktomi Slurp。 如果网站有访问日志,网站管理者就能够知道哪个搜索引擎的搜索引擎蜘蛛来了,什么时候来的,读取了多少数据等。 如果站点管理员发现蜘蛛有问题,请用该徽标联系所有者。
搜索引擎蜘蛛进入网站,通常访问特殊的文本文件Robots.txt。 该文件通常位于web服务器的根目录下,网站管理员可以使用Robots.txt定义哪些目录搜索引擎中的蜘蛛不能访问,哪些特定搜索引擎中的蜘蛛不能访问。 例如,如果搜索引擎不希望搜索某些网站的可执行文件和临时文件目录,则网站管理员可以将这些目录定义为拒绝访问的目录。 Robots.txt语法很简单。 例如,如果目录没有限制,则可以用以下两行来描述。
user-代理:*
Disallow:
当然,Robots.txt只是一个协议,如果搜索引擎蜘蛛的设计者不遵循该协议,网站管理员就无法阻止搜索引擎对蜘蛛特定页面的访问,但一般的搜索引擎蜘蛛是这些协议网站管理员还可以通过其他方式拒绝访问搜索引擎中的蜘蛛的特定页面吗?
搜索引擎蜘蛛在下载网页时识别网页的HTML代码,并在该代码的部分标记元。 这些标记可以告知您是否需要抓住搜索引擎的蜘蛛书页。 此外,还可以告知您是否需要继续跟踪搜索引擎蜘蛛本页的链接。 例如,表示不需要抓住本页面,但页面内的链接需要被跟踪。
现在的网站希望搜索引擎能更全面地捕获自己网站的网页。 因为这样可以让更多的访问者通过搜索引擎找到这个网站。 为了更全面地捕获此站点的网页,站点管理员可以创建站点地图,即站点地图。 许多搜索引擎蜘蛛将sitemap.htm文件作为网页爬取的入口,网站管理员可以在这个文件中找到网站中所有页面的链接,所以搜索引擎蜘蛛很容易抓住整个网站(谷歌为网站管理员提供了XML的Sitemap。)搜索引擎会为文本文件创建网页索引。 对搜索引擎蜘蛛来说,捕获的网页包括html、照片、doc、pdf、多媒体、动态网页和其他格式等多种格式。 捕获这些文件后,必须提取这些文件的文本信息。 准确提取这些文档中的信息一方面对搜索引擎的搜索精度有重要作用,另一方面对搜索引擎蜘蛛准确跟踪其他链接有一定的影响。
在doc、pdf等文档中,由这些专业制造商提供的软件生成的文档,供应商将提供相应的文本提取接口。 搜索引擎蜘蛛只需调用这些插件的界面,就可以轻松提取文档中的文本信息和文件中的其他相关信息。
HTML等文档不同,HTML有自己的一组语法,用不同的命令标识符表示不同的字体、颜色、位置等布局,例如:等,在提取文本信息时需要过滤所有这些标识符。 过滤标识符并不困难。 因为这些标识符有一定的规则,根据不同的标识符获取对应的信息即可。 但是,在识别这些信息时,需要同步记录多个布局信息。
除了标题和正文以外,还有很多广告链接和公共频道链接。 这些链接与文本正文完全无关。 在提取网页内容时,也需要过滤这些无用的链接。 例如,一个网站有“产品介绍”频道。 导航栏位于站点中的每个页面上。 如果不过滤导航栏中的链接,搜索“产品介绍”将搜索网站中的每个页面,从而产生大量垃圾邮件。 要过滤这些无效的链接,需要统计大量的网页结构规则,提取共性,统一过滤。 对于重要且结果特殊的网站,需要另外处理。 这就需要搜索引擎蜘蛛的设计有一定的扩展性。