搜索引擎的分类及工作原理(搜索引擎的基本结构及工作原理有哪些)

前沿拓展:

搜索引擎的分类及工作原理

全文(关键字):像百度、谷歌。机器人抓取关键字
分类(目录):像新浪,搜狐。掺杂人为分工


随着互联网的发展,搜索引擎的出现是必然的。搜索引擎我们每天几乎都会用到,不管是我们熟知的百度,搜狗,淘宝都有其强大的搜索引擎供用户使用,甚至今日也发展了自己的搜索引擎。

了解搜索引擎的历史会有助于SEOer理解搜索引擎营销的发展和变革,对未来有更准确的预期。以下就列出搜索引擎发展的重要历史事件。

1990年

互联网上第一个真正意义的搜索引擎Archie,用于FTP服务器上的文件,当时web尚未出现。

1993年

6月,搜索引擎历史上第一个Web搜索引擎Word Wide Web Wanderer出现,只做收集网址而用,但无法索引文件内容。

10月,第二个Web搜索引擎ALIWEB诞生,已经可以检索标题标签等信息,但文件主题内容还是无法索引。

1994年

1月,Infoseek创立,稍后即正式推出搜索服务,并允许站长向Infoseek提交网址。百度创始人李彦宏当时就是Infoseek的核心工程师之一。

4月,杨致远与David Filo创立Yahoo!,当时作为人工收录网址而用,“寄居”于斯坦福大学的域名。

4月,第一个可以索引全文内容的搜索引擎WebCrawler推出,作为华盛顿大学的一个研究项目。之后该搜索引擎与95年、96年分别被AOL和Excite收购。直到2001年停止研发,转而成为整合、显示多方搜索结果的搜索引擎。

6月,Lycos创立,迅速成为最受欢迎的搜索引擎之一。

1995年

1月,注册yahoo.com域名,

4月,Yahoo!公司正式成立。

12月,Excite搜索引擎正式上线,一度成为早起流行的搜索引擎之一。2001年其母公司破产,被InfoSpace购买,而后04年又被Ask Jeeves收购。

12月,Alta Vista创立并迅速成为zui受欢迎的搜索引擎,并在搜索引擎领域做了许多开创性的工作,堪称当时的Google。

12月,Infoseek成为当时霸主网景浏览器的默认搜索引擎,曾占得90%以上的市场份额。随后因微软免费浏览器IE的推出而逐渐衰败,2008年正式停止研发和技术支援。

1996年

3月,Larry Page与Sergey Brin在斯坦福大学开始名为BackRub的研究项目。该搜索引擎技术项目于1997年正式更名为Google。

4月,Yahoo!上市。

5月,Inktomi创立,作为早期重要的搜索技术提供商,其本身并没有可供用户使用的搜索网站和界面,而是提供搜索技术给其他公司。蕞先开始使用付费收录的方式,后来Google证明此方式行不通。

5月,Hotbot创立,并使用Inktomi提供的数据。该搜索引擎在流行一段时间后于1998年被Lycos收购,之后转型为元搜索引擎,显示来自Google、FAST、Teoma和Inktomi的结果。这个搜索引擎也是当时流行的搜索引擎之一。

11月,Lycos以收录6000w文件,成为当时蕞大的搜索引擎。

1997年

4月,Ask Jeeves正式上线,于2006年更名为Ask。由于当时采用纯人工录入搜索结果的方式,由于网络上的信息量巨大,后来不得不使用其他搜索引擎的数据。

1998年

2月21日,GoTo(后改名为Overture)正式开始竞价排名业务,谁付的钱多,谁就排在前面,成为PPC点击付费广告形式的鼻祖。

随后,Direct Hit创办,主要采用用户点击率来列出搜索结果排名,流行一时,一旦处理不好就会被作弊者利用。

年中,迪士尼控股Infoseek,并将其转型为门户网站。

同年,AltaVista被Compaq收购,1999年10月,AltaVista转型为门户网站,从此AltaVista走向没落。

1998年中,Yahoo!放弃1996年使用的AltaVista,转而使用Inktomi的搜索数据。那个时候,Yahoo!只在用户搜索的网站未在其目录中时才显示真正来自搜索引擎的数据。

9月,Google公司正式成立。

MSN搜索推出,由于微软没有重视搜索引擎,所以直到2004年该搜索引擎一直使用其他提供商的搜索技术与数据。

1999年

5月,AllTheWeb点com创建,作为搜索引擎技术公司FAST展示技术的平台。

6月,NetScrpe放弃Excite,开始使用Google的搜索数据,对Google来说是个里程碑。

1999年中,迪士尼将Infoseek流量转入Go点com,曾流行一时的搜索引擎Infoseek也不复存在,而Go点com几经波折,目前无声无息。

Lycos也停止了自己的搜索技术研发,开始使用AllTheWeb的搜索数据。

2000年

1月,Ask Jeeves花5亿美元的重金收购Direct Hit,但没有进一步发展。2002年初,Direct Hit也正式告终。

1月18日,百度正式成立,作为搜索技术提供商向其他网站提供中文搜索服务和数据。

5月,西班牙公司Terra Networks收购Lycos,并更名为Terra Lycos。互联网泡沫破灭后,Terra Lycos 渐渐势微。

7月,Yahoo!正式采用Google提供的搜索数据。

2000年中GoTo点com基本放弃用自己网站吸引用户的做法,转而向多家搜索引擎及网站提供付费搜索服务。

10月,Google推出AdWords,当时的CPM模式,即按显示付费模式,却并未获得成功。

2001年

9月,Ask Jeeves收购Teoma,作为同样重视链接的搜索引擎,曾被认为可能是Google的最大竞争对手。

10月,百度作为搜索引擎正式上线,百度竞价随即浮出水面,中文搜索随即迅速进入百度时代。

2002年

Google AdWords推出PPC形式,也就是按点击付费,成为至今的AdWords主流模式。这个由Overture发明的搜索广告模式,却被Google发扬光大。Google也因此成为充分利用搜索的网络赚钱机器。

5月,AOL放弃Inktomi,转用Google的搜索数据。

10月,Yahoo!放弃先返回其目录数据的做法,也完全采用Google的搜索数据。

12月,收购Inktomi,为次年一些收购和整合拉开序幕。

2003年

2月18日,Overture收购AltaVista,除了广告平台,Overture也拥有了自己的搜索技术。

2月25日,收购FAST的搜索技术部门,因此其也拥有了当时两大主要搜索技术公司。

3月,Google推出后来被成为Adsense的内容广告系统。

7月,Yahoo!以16亿美元收购Overture,将除了Google之外的几乎所有主流搜索技术收归旗下。Overture的PPC广告平台被整合,改名为Yahoo! Search Marketing。可惜,2010年Yahoo!放弃了自己的搜索技术,转而使用bing服务,以前收购的及自己在此基础上研发多年的搜索技术无疾而终。

2003年,微软MSN终于开始开发自己的搜索引擎技术。而国内的百度推出多种搜索方式,并将搜索领入社区化时代。

2004年

2月,Yahoo!宣布不再使用Google的数据和技术。

8月,Google上市。

11月,微软推出自己的搜索引擎MSN Search,不再使用第三方搜索引擎技术。

三国鼎立的局面正式拉开。

2005年

8月,百度上市。

2006年

5月,微软推出类似于Google AdWords的广告系统AdCenter。

9月,MSN网络品牌产品全部改为Live标识,不过这并没有提高微软在搜素市场的份额,Google仍然一枝独秀。

2007年

01月01日,搜狗网页搜索3.0版本问世,利用自主研发的服务器集群并行抓取技术,成为全球首个中文网页收录达百亿量级的搜索引擎。

3月,Google也开始提供类似网站联盟的按转化付费的广告形式。

4月,Google收购传统网络广告公司DoubleClick,进入更广泛的网络广告领域。

5月腾讯与 Google 中国正式达成合作,由 Google 为 SOSO 提供技术支持。

2009年

6月,微软Live Search改名为Bing。

7月29日,微软与Yahoo!达成历史性协议。Yahoo!将逐步放弃自己的搜索技术,转用Bing的数据,之前的努力也付之东流。

2010年

3月23日,Google宣布搜索服务“过滤审查”,并将搜素服务由中国内地转向香港。

8月25日,Yahoo!正式采用Bing的搜索数据。

2011年

2月24日,Google中推出了减少搜索搜索结果中低质量页面的Padan更新,这对SEO界影响深远。

2012年

4月24日,Google上线Penguin企鹅更新,用以打击作弊链接和低质量链接。这样使得SEO行业对外链制造方法有了全新认识。

8月,360公司推出了360搜索,并凭借其浏览器的市场占有率,迅速提升了其在国内的搜索引擎市场份额。

11月,百度站长平台推出外链查询功能,这使百度站长平台真正成为中国站长必用的SEO工具。

2013年

2月20日,百度推出绿萝算法,用以打击参与链接买卖的网站。

5月,百度推出石榴算法,用以打击低质量内容页面。

6月,Yahoo!关闭了红极一时的AltaVista。

7月,UC和阿里成立合资公司推出的移动搜索引擎——神马搜索。

9月16日腾讯宣布已将搜搜并入搜狗搜索, SOSO 品牌就此消失。

2014年

9月,在放弃了自己的搜索技术4年后,Yahoo!宣布将网站目录关闭。

2015年

2015年1月6日消息,360总裁齐向东向全体员工发送邮件,宣布360搜索将正式推出独立品牌“好搜”,原域名可直接跳转至新域名。

7月,Google上线第29次,也是蕞后一次进行Panda更新,页面被重新抓取后,将实时通过Penguin算法处理。

2016年

2016年2月,360再次宣布,将“好搜搜索”重新更名为“360搜索”,域名也由“haosou.com”切换为更易输入的“so.com”,回归360母品牌,意味着360搜索将继续依托360母品牌的基础,在安全、可信赖等方面,继续形成差异化优势。

10月26日,Google上线RankBrain,这是以人工智能为基础深入理解查询词意义的系统。拉开了人工智能领域应用于搜索引擎的序幕。

2017年

10月,Google开始实施移动优化引擎,移动优化成为SEO重点。

2018年

3月,Google的第一次核心算法更新上线。

2019年

8月10日,搜索上线,搜索是字节跳动推出的网页版搜索。

2022年

6月17日,搜狗石破算法正式生效,目的在于打击恶劣采集行为。

自此之后,PC搜索逐渐形成以百度、搜狗、360为代表的三足鼎立局面,移动搜索方面尽管神马搜索在逐步崛起中,但主要还是依赖于百度搜索。

就搜索引擎的时代划分来说,目前搜索引擎处于第四代——用户中心时代,搜索用户有着千奇百怪的搜索需求,又因为大数据技术的逐步成熟,搜索引擎也将迎来更进一步的发展,在这场无硝烟的搜索市场战争中,究竟会鹿死谁手,我们一同拭目以待。

拓展知识:

搜索引擎的分类及工作原理

搜索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。

搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。

随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。

然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。

怎样才能使搜索引擎精确地为人们提供相关的信息应该是它以后发展的方向,而不是只求综合服务。
搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。
搜索引擎的工作原理
搜索引擎的工作原理大致可以分为:
1、搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。

2、整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。

3、接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内
各类媒体上有关搜索引擎的名词也越来越多,甚至产生让人眼花缭乱的感觉,如交互式搜索引擎、第三代搜索引擎、第四代搜索引擎、桌面搜索、地址栏搜索、本地搜索、个性化搜索引擎、专家型搜索引擎、购物搜索引擎、自然语言搜索引擎、新闻搜索引擎、MP3搜索引擎、图片搜索引擎……

本回答被网友采纳