分类搜索引擎(搜搜搜索引擎分类)

前沿拓展:

分类搜索引擎

搜索引擎有两种基本类型:一类是纯技术型的全文检索搜索引擎,如google、AltaVista、Inktomi等,其原理是通过机器手(即Spider程序)到各个网站收集、存储信息,并建立索引数据库供用户查询。需要说明的是,这些信息并不是搜索引擎即时从互联网上检索得到的,通常所说的搜索引擎,其实是一个收集了大量网站/网页资料并按照一定规则建立索引的在线数据库,如2004年3月底google收录的网页数量已经超过42亿个,这样,当用户检索时才可以在很短的时间内反馈大量的结果。

另一类称为分类目录,这种“搜索引擎”并不采集网站的任何信息,而是利用各网站向“搜索引擎”提交网站信息时填写的关键词和网站描述等资料,经过人工审核编辑后,如果符合网站登录的条件,则输入数据库以供查询。yahoo是分类目录的典型代表,国内的搜狐、新浪等搜索引擎也是从分类目录发展起来的。分类目录的好处是,用户可以根据目录有针对性地逐级查询自己需要的信息,而不是像技术性搜索引擎一样同时反馈大量的信息,而这些信息之间的关联性并不一定符合用户的期望。


搜索引擎的发展史

互联网还没有出现时,人们普遍使用FTP共享信息,大量的文件散布在FTP主机中,使

用户查询信息非常麻烦。为了解决这个问题,1990 年,加拿大麦吉尔大学( McGill University )

计算机学院的艾伦。埃塔奇( Alan Emtage)研发了一一种搜索服务工具Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在各个FTP主机中的文件的服务。

虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作原理是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie 被公认为搜索引擎的雏形。

后来,随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而生,并随着互联网的发展不断的发展和进步。总体来说,搜索引擎分为4代,下面分别进行介绍。

● 第一代搜索引擎: 分类目录时代

分类目录时代的搜索引擎会收集互联网上各个网端的站名、网址、内容提要等信息,并将它们分门别类地编排到各网结中,用户可以在分类目录中还级浏览并寻我相关的网站。搜狐目录、hao123 等就是典型的分类目承时代的代表。

● 第二代搜索引擎:文本检索时代

在文本检索时代,搜索引擎可以对用户输入的查询信息进行各种运算,进而判断其与目标网页内容相关程度的高低,并返回相关度高的网页给用户。一些早期的搜索引擎, 如Alta Vista、Excite 都是这个时代的代表。

● 第三代搜索引擎: 整合分析时代

到了整合分析时代, 搜索引擎会通过外部链接的数量来判断一个网站的流行性和重要性,然后再结合网页内容的重要性和相似程度来完善反馈信息的质量,最后还会将反馈回来的海量信息,智能整合成一个门户网站形式的界面。而不是像文本检索时代返回一个没有分类的链接清单。最早使用这种整合分析的是Google,它不仅使Google大获成功,还在当时引起了学术界和其他商业搜索引擎的极度关注。

● 第四代搜索引擎:用户中心时代

以用户为中心就是当用户查询时,要充分挖掘用户的深层次需求,实现精准化的用户定位和营销。例如,当搜索关键词“手机”时,对于不同职业和不同年龄阶段的用户来说,他们的需求是不同的。甚至同个用户, 也会因为时间和场合的不同而有不同的需求。而要通过用户输入的简短关键词来判断用户的真正需求,就需要搜索引擎能够真正地了解用户。搜索引擎可以通过用户搜索时的大量特征,如上网的时间、操作习惯、搜索内容等,去逐渐勾勒出用户的大致特征、如性别、年龄阶段、兴遵爱好等,这些数据就是搜索引擎进行“商业数据控报”的巨大宝城。

搜索引擎的分类

SEO人员要想提升网站的搜索效率、首先应该熟悉搜索引擎的分类,再根据网站的属性来优化网站。目前搜索引擎主要分为全文搜索引擎、目录搜索引擎、元搜索引擎和垂直搜索引擎等,下面分别进行介绍。

1.全文搜索引擎

全文搜索引擎(Full Text Search Engine )是目前应用较泛的主流搜索引擎,国外最具代表性的全文搜索引擎是Google, 国内则是百度和360搜索。全文搜索引擎从互联网中提取各个网站的信息(以网页文字为主),建立起网页数据库,并检索与用户搜索条件相匹配的记录,按一定的排列顺序返回结果。

全文搜索引擎又可以分为两类,一类是拥有 自己的检索程序(通常被称为网络蜘蛛或网络机器人)能够自己从互联网中抓取网页建立数据库,从自身的数据库中调用搜索结果,如Google、百度和360搜索等。另一类则是租用其他搜索引擎的数据库,并且按照自定的格式排列搜索结果,如Lycos.由于这种搜索引擎不能够创建自己的数据库,无法满足用户的需求,现已逐渐被第一类搜索引擎所替代。

2.目录搜索引擎

目录搜索引擎( Search Index/Directory )也被称为“分类检索”,是以人工方式或者半自动方式搜索网页的内容,并根据网页的内容和性质将其纳到不同层次的类目之下,形成一定的人工信息摘要,最终形成像图书馆目录一样的树状分类结构索引。典型的目录搜索引擎包括雅虎、网易、搜狐等。

目录搜索引擎为树状结构,它在首页中提供了最基本的入口,用户可以逐级向下访问,直到找到所需要的类别。此外,用户也可以利用搜索引擎提供的搜索功能直接查询某个关键词。

由于目录搜索引擎只能在已经保存的站点的描述中搜索,因此网站本身的变化不会反映到搜索结果中,这也是目录搜索引擎与全文搜索引擎之间的区别。

3.元搜索引擎

元搜索引擎( Meta Search Engine )是为了弥补传统搜索引擎的不足而出现的一种辅助搜索工具,它可以使用户只搜索次就得到在多个搜索引擎中搜索的结果。元搜索引擎在接受用户的搜索请求后,会同时在多个搜索引擎中选择和利用相对合适的搜索引擎来实现搜索操作,并且将搜案结果返回给用户。典型的元搜索引擎有IfoSpce、 Dogpile 和Vivisimo 等。

元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块和搜索结果显示模块。搜索请求处理模块负责接收和处理用户的搜索请求,搜索接口代理模块负责将用户的搜索请求翻译成不同搜索引擎所要求的格式,搜索结果显示模块则负责对所有搜索结果进行去重、合并和显示输出。

4.垂直搜索引擎

垂直搜索引擎( Vertical Search Engine )更专注于特定的搜索领域和搜索需求,如图片搜索、视频搜索、法律搜索、专利搜索和论文搜索等,它是对通用搜索内容的细分。在其特定的搜索领域有更好的用户体验,如百度学术、百度文库、Google学术等都是垂直搜索引擎。

垂直搜索引擎最大的特点是精、准、深,且具有行业色彩。相比于其他无序化的搜索引擎,垂直搜索引擎更加专业和深入,进而保证所收录信息的完整性和及时性,且其返回的结果重复率低、相关性强、查准率高。

除了以上4种搜索引擎以外,还有集合搜索引擎、免费链接列表等搜索引擎。这些搜索引擎的应用范围相对较窄,读者只需适当了解即可。

拓展知识: