简述搜索引擎的发展过程(简述搜索引擎索引系统的形成过程)

前沿拓展:

简述搜索引擎的发展过程

搜索引擎的技术发展趋势

搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面:

一、提高搜索引擎对用户检索提问的理解

为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。

二、对检索结果进行处理

1)基于链接评价的搜索引擎

基于链接评价的搜索引擎的优秀代表是Googel(http://www.***.com),它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。

2)基于访问大众性的搜索引擎

基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。

3)去掉检索结果中附加的多余信息

有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。

三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性

1)垂直主题搜索引擎

网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。

2)非www信息的搜索

提供FTP等类信息的检索

3)多媒体搜索引擎

多媒体检索主要包括声音、图像的检索。

四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果

1)纯净搜索引擎

这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。

2)元搜索引擎

现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。

元搜索引擎(metasearch enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick等。


搜索引擎的发展史

互联网还没有出现时,人们普遍使用FTP共享信息,大量的文件散布在FTP主机中,使

用户查询信息非常麻烦。为了解决这个问题,1990 年,加拿大麦吉尔大学( McGill University )

计算机学院的艾伦。埃塔奇( Alan Emtage)研发了一一种搜索服务工具Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在各个FTP主机中的文件的服务。

虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作原理是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie 被公认为搜索引擎的雏形。

后来,随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而生,并随着互联网的发展不断的发展和进步。总体来说,搜索引擎分为4代,下面分别进行介绍。

● 第一代搜索引擎: 分类目录时代

分类目录时代的搜索引擎会收集互联网上各个网端的站名、网址、内容提要等信息,并将它们分门别类地编排到各网结中,用户可以在分类目录中还级浏览并寻我相关的网站。搜狐目录、hao123 等就是典型的分类目承时代的代表。

● 第二代搜索引擎:文本检索时代

在文本检索时代,搜索引擎可以对用户输入的查询信息进行各种运算,进而判断其与目标网页内容相关程度的高低,并返回相关度高的网页给用户。一些早期的搜索引擎, 如Alta Vista、Excite 都是这个时代的代表。

● 第三代搜索引擎: 整合分析时代

到了整合分析时代, 搜索引擎会通过外部链接的数量来判断一个网站的流行性和重要性,然后再结合网页内容的重要性和相似程度来完善反馈信息的质量,最后还会将反馈回来的海量信息,智能整合成一个门户网站形式的界面。而不是像文本检索时代返回一个没有分类的链接清单。最早使用这种整合分析的是Google,它不仅使Google大获成功,还在当时引起了学术界和其他商业搜索引擎的极度关注。

● 第四代搜索引擎:用户中心时代

以用户为中心就是当用户查询时,要充分挖掘用户的深层次需求,实现精准化的用户定位和营销。例如,当搜索关键词“手机”时,对于不同职业和不同年龄阶段的用户来说,他们的需求是不同的。甚至同个用户, 也会因为时间和场合的不同而有不同的需求。而要通过用户输入的简短关键词来判断用户的真正需求,就需要搜索引擎能够真正地了解用户。搜索引擎可以通过用户搜索时的大量特征,如上网的时间、操作习惯、搜索内容等,去逐渐勾勒出用户的大致特征、如性别、年龄阶段、兴遵爱好等,这些数据就是搜索引擎进行“商业数据控报”的巨大宝城。

搜索引擎的分类

SEO人员要想提升网站的搜索效率、首先应该熟悉搜索引擎的分类,再根据网站的属性来优化网站。目前搜索引擎主要分为全文搜索引擎、目录搜索引擎、元搜索引擎和垂直搜索引擎等,下面分别进行介绍。

1.全文搜索引擎

全文搜索引擎(Full Text Search Engine )是目前应用较泛的主流搜索引擎,国外最具代表性的全文搜索引擎是Google, 国内则是百度和360搜索。全文搜索引擎从互联网中提取各个网站的信息(以网页文字为主),建立起网页数据库,并检索与用户搜索条件相匹配的记录,按一定的排列顺序返回结果。

全文搜索引擎又可以分为两类,一类是拥有 自己的检索程序(通常被称为网络蜘蛛或网络机器人)能够自己从互联网中抓取网页建立数据库,从自身的数据库中调用搜索结果,如Google、百度和360搜索等。另一类则是租用其他搜索引擎的数据库,并且按照自定的格式排列搜索结果,如Lycos.由于这种搜索引擎不能够创建自己的数据库,无法满足用户的需求,现已逐渐被第一类搜索引擎所替代。

2.目录搜索引擎

目录搜索引擎( Search Index/Directory )也被称为“分类检索”,是以人工方式或者半自动方式搜索网页的内容,并根据网页的内容和性质将其纳到不同层次的类目之下,形成一定的人工信息摘要,最终形成像图书馆目录一样的树状分类结构索引。典型的目录搜索引擎包括雅虎、网易、搜狐等。

目录搜索引擎为树状结构,它在首页中提供了最基本的入口,用户可以逐级向下访问,直到找到所需要的类别。此外,用户也可以利用搜索引擎提供的搜索功能直接查询某个关键词。

由于目录搜索引擎只能在已经保存的站点的描述中搜索,因此网站本身的变化不会反映到搜索结果中,这也是目录搜索引擎与全文搜索引擎之间的区别。

3.元搜索引擎

元搜索引擎( Meta Search Engine )是为了弥补传统搜索引擎的不足而出现的一种辅助搜索工具,它可以使用户只搜索次就得到在多个搜索引擎中搜索的结果。元搜索引擎在接受用户的搜索请求后,会同时在多个搜索引擎中选择和利用相对合适的搜索引擎来实现搜索操作,并且将搜案结果返回给用户。典型的元搜索引擎有IfoSpce、 Dogpile 和Vivisimo 等。

元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块和搜索结果显示模块。搜索请求处理模块负责接收和处理用户的搜索请求,搜索接口代理模块负责将用户的搜索请求翻译成不同搜索引擎所要求的格式,搜索结果显示模块则负责对所有搜索结果进行去重、合并和显示输出。

4.垂直搜索引擎

垂直搜索引擎( Vertical Search Engine )更专注于特定的搜索领域和搜索需求,如图片搜索、视频搜索、法律搜索、专利搜索和论文搜索等,它是对通用搜索内容的细分。在其特定的搜索领域有更好的用户体验,如百度学术、百度文库、Google学术等都是垂直搜索引擎。

垂直搜索引擎最大的特点是精、准、深,且具有行业色彩。相比于其他无序化的搜索引擎,垂直搜索引擎更加专业和深入,进而保证所收录信息的完整性和及时性,且其返回的结果重复率低、相关性强、查准率高。

除了以上4种搜索引擎以外,还有集合搜索引擎、免费链接列表等搜索引擎。这些搜索引擎的应用范围相对较窄,读者只需适当了解即可。

拓展知识:

简述搜索引擎的发展过程

p2-搜索引擎发展史