搜索引擎的分类与工作原理(搜索引擎的工作原理分为哪五步)

前沿拓展:

搜索引擎的分类与工作原理

全文(关键字):像百度、谷歌。机器人抓取关键字
分类(目录):像新浪,搜狐。掺杂人为分工


从事网站运营,搜索引擎优化工作的运营人员都知道我们做网站运营就是要迎合用户,不断地提升用户体验度和迎合搜索引擎,只有用户和搜索引擎都喜欢的网站才能算是一个成功的网站!在SEO工作中,有的时候很少有人去关心搜索引擎蜘蛛是如何工作的,但对于SEO人而言,我们有必要了解搜索引擎蜘蛛的工作原理。

搜索引擎蜘蛛的工作原理,如何吸引蜘蛛

搜索引擎蜘蛛是什么?

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。蜘蛛其实就是搜索引擎的手下,搜索引擎命令它到互联网上浏览网页,从而得到互联网的所有数据,然后把这些数据存到搜索引擎自己的数据库中。当然了,这个数据库是相当强大的。

搜索引擎蜘蛛爬行原理?

搜索引擎蜘蛛分为三种级别,他们分别具有不同的权限,下面我们就来解析下

1、初级蜘蛛

初级蜘蛛一般爬行的是新站,爬行深度低,抓取到网页内容后,会一级一级地提交到搜索引擎数据库,先把数据存放起来,然后过几天在来爬行,直到搜索引擎认为爬行抓取到的内容有价值才会被放出来,这也是为什么新站都有一个考核期(沙盒期)因为都是初级蜘蛛在爬行,爬行的深度又低,所以新站数据更新也是非常慢的。

搜索引擎蜘蛛的工作原理,如何吸引蜘蛛

2、中级蜘蛛

中级蜘蛛通过爬行外链和反链(友情链接)来到你的网站,然后再开始爬行网站,从而抓取你网站的内容,把抓取到的内容和搜索引擎数据库中原来的数据对比,看看是否是原创、伪原创、或者直接采集的内容,从而决定要不要放出来。所以说,我们需要在高权重的论坛发软文和有锚文本签名是可以有效地吸引蜘蛛来光顾我们的网站。

3、高级蜘蛛

高级蜘蛛负责爬行权重比较高的网站,高级蜘蛛有专门的权限,就是秒收。这就是为什么我们需要去权重比较高的论坛发帖了,会被搜索引擎秒收,高级蜘蛛爬行深度非常高,他几乎可以爬行到你网站的所有链接页面,高级蜘蛛的爬行来访频率也很高,来访频率、收录快这也直接加快了百度快照的更新,这也是为什么我们需要一直不断的提高网站的权重的原因。

如何吸引蜘蛛爬行?

1.内容更新频率

理论上你的网站内容更新频率相对较高,那么搜索引擎蜘蛛爬虫来访频率就高,目的是抓取更多的优质内容,当然如果能规律性的更新网站内容那就更好了。

2.内容更新质量

更新的内容质量要高,较好是自己原创,特别是百度爬虫,如果你定期输出高质量且虚缺性的内容,就会发现蜘蛛的来访频率很高,并且经过信任度累积,很容易达到 “秒收”

搜索引擎蜘蛛的工作原理,如何吸引蜘蛛

3.网站页面稳定

服务器的稳定是决定搜索引擎蜘蛛是否能够顺利抓取的注意因素,如果网站经常打不开或者延迟识别,都会对抓取和索引产生重要影响。

4.整站的目标权重

这是一个综合性指标的考虑,权重高的站点更受搜索引擎的青睐,蜘蛛的来访爬取也相对频繁。这也是SEO优化人员一直致力提升网站权重的原因。

拓展知识:

搜索引擎的分类与工作原理

【分类】

1.全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

搜索引擎的分类与工作原理

搜索引擎的分类与工作原理

可分为三种 搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 元搜索引擎(META Search Engine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

搜索引擎的分类与工作原理

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。  

【工作原理】

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 

2、处理网页 

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 

3、提供检索服务 

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。