独立搜索引擎型(开放式搜索引擎)

前沿拓展:

独立搜索引擎型


现有的搜索引擎基本上分为三类:

1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。

1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。

1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成

用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.

网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。

索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。

搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。

3 搜索引擎的主要性能评价指标

3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。

3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。

3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。

3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。

另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4 搜索引擎检索信息的局限

2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。

4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。

4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。

4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。

4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。

4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5 搜索引擎未来的发展趋势

新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。

答案补充

5.1 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。

5.2 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更

加准确。

5.3 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。答案补充

5.4 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。

5.5 结构化搜索 所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。

5.6 本土化的搜索 世界上许多著名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。

5.7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。


互联网行业的百度,还做餐饮?这些年,不少城市街头开始出现名叫“百度烤肉”的餐饮店,让人们一度怀疑身为知名品牌的互联网公司百度要进军烤肉行业。而随着今年以来,法院公布多起百度告百度烤肉裁判文书,方知全国有500多家烤肉店傍了百度的品牌。百度先后将深圳、北京多家百度烤肉连锁餐饮起诉到法院,官司均胜诉。

百度状告500多家百度烤肉,因为百度根本不烤肉

知名百度被烤肉店傍了品牌

人们熟知的百度在线网络技术(北京)有限公司(以下简称百度),成立于2000年1月18日,是全球最大的中文搜索引擎及中文网站。“百度”二字来自于南宋词人辛弃疾的词句“众里寻他千百度”。百度在2000年就将其注册了商标。2001年,百度推出独立搜索引擎;2003年,百度超越Google,成为中国网民首选的搜索引擎;2005年8月5日,百度在美国纳斯达克上市;无论是在国内还是国际上,“百度”均具有极高的影响力。

百度状告500多家百度烤肉,因为百度根本不烤肉

然而,近年来,在全国不少城市都发现了名叫“百度烤肉”的饭店。

其中,在北京有一家名为北京京百度餐饮管理有限公司(以下简称京百度),2012年1月19日注册成立,后来又注册成立了一分公司(朝阳区),三分公司(通州),七分公司(朝阳区),八分公司(朝阳区);在北京开了12家百度烤肉店。

百度状告500多家百度烤肉,因为百度根本不烤肉

而在深圳,一家名为深圳市亿百度餐饮管理有限公司(以下简称深圳亿百度),其法人,2005年就在沈阳成立百度烤肉店,在全国开568家烤肉加盟店。该加盟店是以“纸上烤肉”为特色的全国连锁餐饮企业。

百度状告500多家百度烤肉,因为百度根本不烤肉

深圳亿百度《特许加盟合同书》显示,他们收取的加盟费是3.8万元一家。其官方网站首页显示加盟店数量达到568家,除了深圳总部,在沈阳、四川、贵州、云南设立了四家分公司,并发展了深圳市福田区百度烤肉店、深圳市龙岗区坂田百度烤肉店等数百家直营店或加盟店,号称“中华烤肉第一品牌”,其“一星店”收取加盟费15.8万元、特许权使用费1万元计,估算总收入为人民币9542.4万元。

百度状告500多家百度烤肉,因为百度根本不烤肉

京百度加上亿百度,百度烤肉店总规模接近600家。很多看到百度烤肉招牌的市民都不禁发出疑问:百度什么时候还干起了烧烤?互联网公司跟烧烤也不沾边啊?

百度状告百度烤肉

百度认为,百度烤肉的行为侵害了“百度”商标的注册商标专用权,先后将深圳亿百度,北京京百度等多家公司起诉到法院。要求停止侵权、赔偿损失。

其中要求判令京百度五被告共同赔偿原告经济损失495万元及维权合理支出费用5万元;并在《中国知识产权报》上刊登声明,消除侵权影响。判令深圳亿百度等四被告共同赔偿原告经济损失人民币1104.24万元。

庭审中,京百度虽然承认企业名称构成不正当竞争,同意变更企业名称,但认为赔偿数额过高。而且指责百度从2012年至今的10年时间都没有维权,是在故意“放水养鱼”。

而深圳亿百度法人称:其在2005年在沈阳成立百度烤肉店,当时“百度”尚未驰名。

深圳亿百度烤肉侵权案先后经过一审二审再审,最终打到了最高人民法院。一审法院判令深圳市亿百度及其法人、孙某停止侵权,共同连带赔偿原告百度经济损失及维权合理开支共计人民币300万元;被告深圳市名家百度烤肉店赔偿百度经济损失及维权合理开支共计50万元。上诉后,法院最终维持了原判。

今年4月,北京法院判令北京京百度五被告停止侵权,登报道歉,赔偿原告各项经济损失共计2320441元。

京百度上诉后,法院变更了一审法院部分诉讼请求,其中包括承担责任的主体。但赔偿经济损失仍为2320441元。

百度两场官司均胜诉,还获赔580多万元。

攀附百度商誉理应赔偿

本案中,法院认为:被告具有攀附原告“百度”商誉的故意。“百度”二字出自宋词“众里寻他千百度”,没有固定含义,先天具有较强的固有显著性,且经过后天长期、持续的宣传和使用,“百度”累计了很高的知名度,被告作为商事主体,不可能不知悉“百度”的知名度,但其执意在经营中使用“百度”“”“百度烤肉”等被诉侵权标识,显然具有攀附“百度”商誉的故意。

被诉侵权行为不当利用了“百度”驰名商标市场声誉,误导公众,损害了原告利益。而且已有众多网友将“百度烤肉”误认为是原告的新业务或与原告具有特殊关系,可见被告的侵权行为显然已经破坏了原告“百度”商标与互联网搜索引擎服务之间的直接密切联系,减弱了“百度”商标的显著性,不当利用了“百度”驰名商标的市场声誉,侵害了“百度”驰名商标相关权益。其行为已经构成不正当竞争,理应承担相应法律责任。

拓展知识:

独立搜索引擎型

【分类】

1.全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

独立搜索引擎型

独立搜索引擎型

可分为三种 搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 元搜索引擎(META Search Engine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

独立搜索引擎型

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。  

【工作原理】

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 

2、处理网页 

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 

3、提供检索服务 

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。