全文搜索引擎信息量(全文搜索引擎)

前沿拓展:

全文搜索引擎信息量

就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术·
主要该系统有TRS系统·天宇系统·等
与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。
搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。
目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程:

索引(Indexing)
从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。
将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。
搜索(Search)
用户执行搜索(全文检索)编写查询关键字。
从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。
展示搜索的结果。


在互联网时代,搜索引擎逐渐成为我们日常生活中必不可少的东西。

而我们平时在进行信息检索大概也只是直接在检索框中输入一个或几个关键词,然后递交系统进行检索,即采取简单检索的方法。

其实这样的检索效率是比较低的,很可能会得到一批并不符合我们的检索目标的信息,也就使得我们需要在筛选信息方面花费更多时间。

所以很多搜索引擎都会提供一些不太复杂的新方法和新途径对用户检索做小小的限制,使得系统能更好地理解用户的需求。

根据不同的检索需求、选择合适的搜索引擎、制定正确的检索策略,才能保证我们找到所需要的资源。

所以本文以百度为例,借助一些相关知识,介绍搜索引擎的一些使用技巧。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度百科

什么是搜索引擎

搜索引擎是在互联网迅速发展和信息量急剧增长的背景下产生的,又称网络搜索引擎、网络检索引擎。是指根据一定的检索策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供信息检索服务的工具或系统,是网络资源检索工具的总称。它主要是用于检索网站、网址、事实、数值等信息内容。

为了扩大影响,很多搜索引擎已不再单纯提供网络检索服务,而是发展成为包括网络搜索、网络新闻、网络游戏等多种内容在内的综合性网络服务媒体。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度百科

搜索引擎有哪些常见的进阶玩法?

首先先明确两个概念:查全率与查准率

查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比,主要衡量的是所得结果的完整程度。

查准率是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。普遍表示为:查准率=(检索出的相关信息量/检索出的信息总量)x100%。衡量的是所得检索结果的相关程度及准确程度。

布尔逻辑检索

(1)逻辑“与”检索

一般用空格或AND表示,有的搜索引擎还可以用&表示。

使用逻辑”与”是为了要求检索结果中同时出现所有输入的检索问,提高查准率。

下图阴影处表示A AND B

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

(2)逻辑“或”检索

一般用+或OR表示。使用逻辑‘或”是为了要求检索结果中出现输入检索词中的任何一个,提高查全率。但是会扩大检索范围,导致无关信息增多,谨慎使用。

下图阴影处表示A OR B

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

(3)逻辑“非”检索

一般用 - 或NOT表示.有的搜索引擎还可以用!表示。使用逻辑‘非”是为了要求检索结果中出现 - 前的检索词,但排除其后的检索词的页面信息,以缩小检索范围。

下图阴影处表示A NOT B

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

不同的搜索引擎的逻辑符号都不太一样

精确检索

给检索词加上双引号,可以精确查找某一检索词。

比如检索“社交网络”,便是要求检索结果必须出现这个词,而不会出现“社交”或者“网络”相关的信息。

限定检索

限定检索,也称范畴检索,它是将检索限制在网页(记录)的一个特定部分成几部分进行的检索。

(1)对制定网站或域名进行检索:一般使用“site”为检索运算符,其格式为site:站点或域名。

(2)在标题中检索:在网页的标题中查找输入的检索词,使用的一般检索算符是intitle,其格式为intitle:检索词。

(3)指定文件格式检索:主要目的在于控制检索结果,保证其输出具有特定文件格式扩展名的文件,一般使用的检索算符是filetype,其格式为filetype:文件格式或扩展名。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度百科

截词检索

截词检索,指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,主要目的是提高查全率,简化检索步骤,节省检索时间。多用于西文检索。

各检索系统的截词符号各有不同,没有统一规定,大部分为?或*,一般情况下?代表0~1个字符,表示有限截断;*代表0至多个字符,表示无限截断。

截词根据位置可以分为前截词、中截词、后截词和前后截词。

前截词,也称左截词、后方一致,允许检索词前有若干变化,比如输入*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。

中截词,又称前后方一致,允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。

后截词,又称右截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer 、computing、computerised、computerized、computerization等结果。这是最常用的截词方式。

前后截词,词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。

在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。

位置检索

位置检索是指通过检索式中的专门符号规定检索词在结果中的相对位置,进而限制检索结果的一种检索方式。

主要有相邻位置算符(W)、(nW)、(N),(nN)

(W)算符是with(word)的缩写,其用法为A(W)B,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological (W) control相当于检索biological control。

(nW)算符中的W的含义是“Word”,n代表单词个数,用法为A(nW)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序保持不变。如wear (1W) material相当于检索wear materials、wear of materials等。

(N)算符是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。如使用information(N)retrieval,可检出: information retrieval、retrieval information。

(nN)算符与(nW)算符同理。

在我们的日常检索实践中,布尔逻辑检索、精确检索、限制检索的使用频率较高、难度较小,但是可以大大提高检索效率。

截词检索与位置检索的检索式构建难度较大,不太适合非专业人士的日常应用。

百度检索的隐藏玩法让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

百度

基于以上的检索模型,我以我们最常用的百度为例,介绍一些百度的隐藏技巧供大家参考。

其实所有的隐藏玩法的基本原理都来自于上文所提的检索模型。

高级检索

首先就是高级检索啦,百度首页的右上角有一个很不起眼的设置选项,点击便可以选择高级检索。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

百度的高级检索

百度的高级检索基本涵盖了我在上文所介绍的全部检索模型的思路,并且以一种更加简单的方式展现出来,帮助用户理解和应用。

比如“不包括以下任意一个关键词”便是“逻辑非”的概念;

文档格式检索、关键词位置检索是限制检索的概念......

其实下文即将提到的很多检索方法都可以在高级检索实现。

精确检索——“”

如上文所说,在给检索式加双引号可以实现某个词的精确检索。

如果输入的词过长,或者是复合性的检索词,百度给出的检索结果可能是拆分的,使用双引号可以准确查询到所需的某个词的资料。

如检索上海大学国际交流项目

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

不加双引号,会检索出“国际交流项目”、“交流项目”等信息

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

加双引号后,检得的均为“上海大学国际交流项目”的信息

限制检索结果格式——“filetype:”让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源 CSDN 小小渔夫

限制文件格式也可以直接用后缀检索,比如检索电子书,可以直接检索书名.mobi

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

将检索结果限制在网页标题——intitle:让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/CSDN 小小渔夫

将检索结果限制在某个链接中——inurl:让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/CSDN 小小渔夫

将检索结果限制在特定站点中——site:让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/CSDN 小小渔夫

布尔逻辑检索

逻辑与——“+”,前一个关键词与后一个关键词之间用加号连接,且加号的左边是空格。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度经验

逻辑与——“-”,前一个关键词与后一个关键词之间用减号连接,且加号的左边是空格。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度经验

逻辑或——“|”,通过符号(|)连接关键词的,使用语法是A|B,搜索的结果显示是A 或B。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/百度经验

查找论坛模块——『』

百度为国人自己开发的搜索功能,支持的中文标点符号最多。

让信息检索更有效率!百度有哪些你不知道的隐藏玩法?

图源/CSDN 小小渔夫

相关反馈

这个是最常见的,我们在输入某个字或词时,百度会提供“其他用户搜索过的相关检索词”作参考,可以直接点击进行检索。

相关的玩法还有很多,在检索时也有许多语法要求,感兴趣可以直接百度“百度高级检索技巧”。

参考资料

唐开主编. 信息检索[M]. 北京:煤炭工业出版社, 2013.08.

陆吉林,杨建芳编著. Internet搜索引擎指南[M]. 上海:复旦大学出版社, 1999.10.

百度经验、CSDN博客、百度百科

拓展知识:

全文搜索引擎信息量

全文搜索无范围,就是像百度那样直接打字上去搜索的;
目录搜索有范围,通过一条条的标签在本网内查找;
元搜索无范围。查找时会找出多种网站上的信息。

本回答被网友采纳

全文搜索引擎信息量

全文搜索引擎,就像百度谷歌那样抓取网页生成索引供用户查询~
目录搜索引擎,典型的就是以前的雅虎搜狐,人工收录分类~
元搜索引擎,其实只是聚合器,直接从其他搜索引擎获取结果重新处理下再显示给用户~