蜘蛛机器人,乐你思谈搜索引擎蜘蛛(机器人) 疯狂代码！

蜘蛛机器人,乐你思谈搜索引擎蜘蛛(机器人)

搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后，服务器返回HTML 代码，蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。

搜索引擎工作过程非常复杂，爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。然后索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。当用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt 文件。如果robots.txt 文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。和浏览器一样，搜索引擎蜘蛛也有标明自己身份的代理名称，站长可以在日志文件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称：

Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
· Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛
· Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/sl…) 英文雅虎蜘蛛
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google 蜘蛛
· msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软 Bing 蜘蛛
· Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) 搜狗蜘蛛
· Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛
· Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spid…; ) 有道蜘蛛

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。蜘蛛的作用就是让搜索引擎对有效链接进行搜寻，但不是允许的蜘蛛越多越好，有时会造成负面效果，蜘蛛爬虫太多，会影响服务器的运行，导致网页打开缓慢。http://www.nbseo.cc/archives/1900

Tags: 搜索引擎蜘蛛爬行搜索引擎蜘蛛机器人搜索引擎机器人蜘蛛侠蜘蛛机器人

蜘蛛机器人,乐你思谈搜索引擎蜘蛛(机器人)

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注