SEO优化

深入了解搜索引擎原理第一课

时间:2010-11-19 23:53:06   作者:未知   来源:站长之家   阅读:336   评论:0
内容摘要: 第一堂搜索引擎原理课程,主要介绍搜索引擎爬虫(或者叫机器人,蜘蛛)是如何代替人工收集信息的。 搜索引擎基础 何为搜索引擎?搜索引擎(国外的代表google,国内的代表百度),利用程序在互联网上抓取网站信息,把抓取回来的信息进行分类整理,供访问搜索引擎的.联网用...

第一堂搜索引擎原理课程,主要介绍搜索引擎爬虫(或者叫机器人,蜘蛛)是如何代替人工收集信息的。

搜索引擎基础

何为搜索引擎?搜索引擎(国外的代表google,国内的代表百度),利用程序在互联网上抓取网站信息,把抓取回档男畔⒔行分类整理,供访问搜索引擎的互联网用户搜索和关键词相匹配的信息。

比如:您想买一款手机,您可以直接在搜索引擎中输入关键词(诺基亚),在0.1秒之内,搜索引擎会返回出售诺基亚的网站列表,这个网站列表是经过搜索引擎严格筛选得出的结果。搜索引擎在给=个关键词(诺基亚)进行网站排名时,会采用自己一套算法,这套算法也是这些搜索引擎公司的绝密文件。

搜索引擎如何抓去信息

搜索引擎初期,由于互联网信息并不是很多,所以许多搜索引擎收录信息完全依靠人力,许多编辑,每天不停的访问互联网的各个网站,把自己认为比较好的网站进行收录。但是随着互联网时代的到来,互联网网站爆炸式增长,人工收录网站信息已经是完全不可能,所以这些搜索引擎就编写了抓去互联网信息的程序,就叫搜索引擎爬虫,机器人,或者蜘蛛。

下面笔者以世界著名的google搜索引擎为例,来说一说爬虫是怎么代替人工收集整理网站信息的(大部分搜索引擎都是按照这种方法来收集信息的)。

更新爬虫

Google搜索引擎可以同时派出N多个爬虫,同时访问互联网,如果发现新的信息就会放到自己所带的数据库中,我们把这种爬虫称之“更新爬虫”。更新爬虫能够根据互联网上的URL地址,不停的以“光速”爬行,一旦自己所带的数据库装不下更多的信息时,它们会返回谷歌所提供的单独数据库,把自己所带的信息扔在里面,然后又出来接着收集信息。

由于更新爬虫自身所带的仓库容量限(google更新爬虫应该是100KB容量),所以许多seo建议在制作网站时,每一个页面控制在100KB以内。如果网页大小超过了100KB,剩余的网页信息,更新爬虫是无法一次性带走的。

对于没有被google主索引收录的页面,由于更新爬虫是和google主索引一起提供搜索结果的,所以您会看见自己的网站信息很快出现在搜索结果中,又很快的消失,直到一段时间后又在google主索引中出现。

对于已经被google主索引收的页面,刷新爬虫取得这个页面的更新后,关于该页面的更新会出现在搜索结果中,但是过几天该页面的更新会退回到没有更新之前,直到深度爬虫进行深度爬行之后,更新的页面就会完全被显示出来。

深度爬虫

深度爬虫的主要任务是访问google主索引中已经存在的网站,进行整体的服务器更新,目前google深度爬虫几乎可以每天更新一次,所以如果不注意观察是根本察觉不到的。但是百度深度爬虫的时间就要长一点,大概是一周进行深度爬行一次,所以许多做百度的seo,都盼望百度深度爬行,因为百度深度爬行,就意味着,自己的上一周的工作将被百度肯定。

今日回顾

更新爬虫每天都在互联网上忙碌,力求收集更多更新的网站信伲在收集信息时,由于更新爬虫自身所带的数据存储量的限制,所以更新爬虫不能完全带走超过自身数据限制的网页内容,这也是许多seo为什么要把网页压缩到最小的原因。

深度爬虫访问搜索引擎主索引之后,就意味着,网站关键词排名的大调整,只有经过深度爬虫更新后的搜俳峁才能算是基本稳定的搜索结果。

本文由陕西基石广告有限公司原创 http://www.jishiguanggao.com 版权所有,谢谢合作

感谢 maoseomao 的投稿


标签:网钛文章管理系统  网钛工作室  
相关评论
网站部分资料来源于网络,如有侵权,请联系删除。 客服QQ:877873666网钛客服  阿里旺旺: 点击这里给我发消息sunyi3210  网钛微信公众号:otcms2010  (更多联系方式看右侧)
网钛QQ交流群1:182790631网钛CMS交流群1  网钛淘宝店   版权保护登记号:2013SR057730   公安机关备案号公安备案:35010302000119    闽ICP备17002817号-2