搜索引擎类型(什么是搜索引擎?搜索引擎有哪些类型?)

前沿拓展:

搜索引擎类型

1,垂直搜索

垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等)。

在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

2,集合式搜索

集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

3,门户搜索

门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。


摘要: 智能搜索引擎是结合了人工智能技术的新一代搜索引擎。它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务,是目前企业大量使用的知识搜索系统。

关键字:知识智能 知识搜索 引擎 功能 分词 效果

一、知识智能搜索引擎系统信息表

知识搜索引擎(Knowledge search engine)是知识管理的一种实现理念与工具,承担了"知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建",通过搜索引擎技术完成知识管理的使命。智能搜索引擎是结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。以下介绍北京深蓝海域科技有限公司开发的之知识智能搜索引擎信息汇总表。

1、信息系统名称

知识智能搜索引擎系统

2、软件提供商

深蓝海域

3、使用年限

4年

4、是否有二次开发

二、智能搜索引擎背景

我们拥有众多IT系统,系统中存储大量数据、信息,输数据结构复杂,每个系统都拥有简单的“数据库检索”功能,但常常出现,找不到、找不准、找不全,速度慢等问题。如何让每个系统可以快速实现全文搜索引擎,快速定位信息呢?

传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。

  针对以上企业面临的困难,北京深蓝海域信息科技有限公司(深蓝海域)结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,开发了知识智能搜索引擎。

三、智能搜索引擎架构及功能

深蓝海域知识智能搜索引擎系统是一款拥有自主知识产权的搜索引擎产品,并取得了国家颁发的软件著作权(登记号:0263812)

搜索引擎具备快速、准确、符合搜索条件等特点,能够帮助使用者快速定位查找各种类型、格式的知识。广泛应用于各大银行系统中,为客户提供稳定、快速、准确的知识搜索服务

3.1系统架构图

CICADA云搜索引擎,可针对多个IT系统分别建立多个索引的机制,实现统一的企业级全文搜索,也可提供各IT系统单独的搜索。

采用hadoop集群技术,处理海量大数据,避免各个系统各自维护一个复杂的全文检索功能,体现应用的云化、服务化

3.2功能清单

检索器方面:

全文搜索、正文搜索、附件搜索、标题搜索、高级搜索、个性化搜索、既时搜索、多关键词组合、搜索纠错、联想词、同义词、拼音识别、公式搜索

结果处理器:

搜索高亮、热门搜索、相关搜索、二次搜索、个性化筛选、定位搜索、搜索结果聚类、主题聚类、关联挖掘、分类筛选

索引器:

多数据源索引、文本解析器、即时增量索引、数据权重算法、跨库索引、爬虫采集、索引分词机制、全量索引

排序算法

切词机制、人工干预、打分机制、用户行为、数据权重

用户层

用户位置、用户身份、用户权限、用户搜词、用户点击、用户互动、热词统计、误差统计、行为统计、词库管理、集成接口、开发接口

数据源

数据库、文档、知识库、业务系统、互联网

3.3全文搜索引擎功能介绍

3.3.1全文搜索技术:

KMPRO搜索引擎是和百度、谷歌相同的全文搜索技术,可以同时搜索知识文档的标题、正文、摘要以及附件中的关键词。

为了满足企业用户的使用,KMPRO搜索引擎除了可以使用全文搜索外,还可以只搜索标题、正文、摘要、附件的任意一项,以帮助用户准确定位所需知识点 3.3.2高级搜索:

为了帮助用户进行精确定位,以及进行知识点旧版本查看。用户可以在搜索引擎右侧点击高级搜索,在高级搜索中,用户可以同时为标题、正文、附件、摘要添加搜索条

件以达到精确定位的效果。

并且用户还可以在高级搜索中选择版本搜索范围,以搜索知识文档旧版

3.3.3综合打分排序机制

KMPRO搜索引擎的搜索结果是根据关键词命中位置、关键词命中个数文档质量度、关键词质量度、人工干预,五大元素进行综合打分排序。为了帮助用户能够根据特点情况选择排序方式,我们增加了根据更新时间、以及点击量进行排序,用户可以根据业务场景自行选择排序方式。

3.3.4精确定位-二次搜索

为了帮助用户精确定位所需知识点用户在搜索关键词,搜索文档较多时,不需要进行翻页查找。可以直接通过二次搜索框,进行关键词二次筛选,将第一关键词搜索出的知识点进行二次筛选

3.3.5精确定位-条件筛选

用户在进行二次搜索后,如果搜索结果文档,依然过多不方便进行快递查找,还可以通过条件筛选进行快速定位。如:添加分类条件、添加时间条件、添加同义词条件等,以帮助用户进行精确定位所需知识点

3.3.6针对英文和数字搜索的特别规则:

1、系统特别支持英文和数字切词时按照3个字母或3个数字一组进行切词;

2、基于这样的技术,您可以在无法记全单词、或数串的时候,只需输入连续3个及以上字符,包含该三个字符的更长英文或数串可以被搜索出来。例如

搜索“project”需要至少输入pro或roj或ect等即可搜索出来)

该规则也支持搜索一串数字中的连续三个或以上数字,部分命中匹配该串数字。(例如:想搜索“1326439”需要至少输入132或264等)

但是,特别注意:如果想利用英文字母和数字的“部分命中匹配”规则进行组合搜索,则必须让英文字母和数字与其他搜索词用空格分隔,不支持三个字母或三个数字直接+中文或其他搜索词的模式。(例如 华东 pro,可以搜索出华东 project,但华东pro,不可以)

3.3.7关键词质量度

目的是找到这篇文档里“最重要”的词,在AI和搜索领域,我们使用TF-IDF计算法来计算词的重要度。

其核心思想是:TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。

1、如果某个词在整个库里比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特征。

2、如果某个词在整个库里比较多见,在本文中也很多件,那么它的重要度就不高了,这个词就比较普通。

假设以《中国的蜜蜂养殖》为例,假定该文长度为1000个词,"中国"、"蜜蜂"、"养殖"各出现20次,则这三个词的"词频"(TF)都为0.02。

假定中文网页库有250亿文章,包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:

从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。

3.3.8语义模型处理

中文分词机制设置和选择

文档倒排

数字切分(3个一组)

英文大小写

单词字母切分(3个一组)

3.3.9构造建立索引

支持数据库、文件、邮件、ftp等多种数据源接入

支持MS、WPS、PDF、TXT、ZIP等,以及图片、音视频元数据等几十种格式。

支持增量索引、全量索引、即时索引等机制

对超大文档采取流式抽取模式。

索引缓冲区索引块合并机制,解决索引写入瓶颈。

四、智能搜索引擎分词机制

搜索分词机制

独创智能三轮分词机制,解决查准、查全的矛盾。

支持专业词库、同义词库维护模式

支持陌生词发现,筛选后入库

分词粒度可以进行多种配置选择。

智能分词技术

整词规则:

如果搜索的词在词库中已被添加为专业词,则默认被分成一个整词。此时,搜索引擎会认为用户是在找含有这个整词的知识,而不会把只包含整词中部分“单词”或“字”的知识查找出来。

例如:如果词库中已有“知识库”这个词,那用户搜索“知识库”会分词为”知识库“这个整词,而不会被分为”知识“、”库“;当搜”知识库“时,系统认为是在找”知识库“,而不是找”知识“和”库“,所以单独含有知识和库的文章不会出现。

空格规则:

无论中文、数字、英文,词与词之间有空格默认都是将输入的搜索内容进行了人为分词;

例如:当用户输入 “知识 库”,这个搜索意图是,搜索包含 “知识” 和 “库”,两个词的结果,而不是要搜索“知识库”一个词。

特殊符号分词规则:

特殊字符若出现在两组中文、英文、数字中间,默认被替换为空格,仍然以输入的搜索对象进行分词,分词结果遵循命中和排序规则;

例如:输入Indo-European,自动将连接符-改为空格,分为Indo European两个词进行搜索。

数字英文分词规则:

如果搜索词是数字+英文或英文+数字不加空格,搜索对象分别分词,分词结果遵循连续完全命中和75%命中规则;

例如:123IPhone和IPhone123均分为 123和iPhone;命中iPhone和123均出现结果,命中123的更长数字组合不出现在结果

数字或英文空格或与中文相接的分词规则

对于一个英文单词或一串数字,只要前后出现空格或中文字,就视为一个词;

例如:I am happy 这其中,都用空格分开,则每个单词视为一个分词。 我的英文名字是leo,来自Peking。这样的行文,前后有中文,也视为一个英文单词。我今年20岁,我的手机号是13901234567请记好。这其中,20和13901234567,都会被独立分为两个词。

关键词联想

用户在搜索关键词后系统会基于系统用户热搜关键词进行关键词推送联想

拼音识别

用户在输入拼音后搜索引擎会自动识别可能的关键词,给到用户进行推送选择

五、搜索引擎在企业中的应用及效果评价

企业搜索引擎目前广泛应用于上市企业、集团性企业、金融性企业。满足了大部分公司在企业使用上的需求。提升了企业运营效率,节省企业人力资源,减少管理成本的消耗

从客服部门角度,搜索引擎提升了客服在接打用户电话时的工作效率。在培训考试时的学习效率。为客服部门的发展和建设,提供了长期有效的业务支撑

从企业角度。企业搜索引擎为整合企业支持。留存企业资产,打破企业知识壁垒,提供了强有力的技术支撑。

六、搜索引擎在企业应用中的不足

6.1智能搜索引擎的优点

搜索结果的准确性,智能搜索引擎,由于采取语义分析的方法,直接给出想要的搜索结果。

搜索结果的范围定位准确, 由于采用知识(概念)检索技术,明确和缩小了搜索范围,减少对无用信息范围的检索。

 搜索结果的综合性, 由于采用了知识库,搜索引擎将给用户提供更全面、更综合和更合理的知识框架。

 搜索结果的智能性, “智能来自知识”,有综合知识库作为背景,信息检索和导航服务将更智能。

但是,我们也看到智能知识搜索也其局限性。

1、建立理论上完备的知识库是不现实

这是因为人的知识、特别是常识性知识具有“数量”上的浩瀚无际,在“质量”上又有高度的不确定性和模糊性,要建立这样一个知识网络是极端困难的。理论上完备的知识库虽然难以实现,但是我们可以通过降低求解目标的方法,针对具体的搜索引擎需求,建立相应的知识库(或称概念图),这里的知识库是对理论上完整知识库的一种近似,一种局部实现。现实中,企业的知识库建设也难以完备,因此,一定程度上阻碍了智能知识搜索的强大效能的发挥。

2、语义信息处理需要进一步发展

知识智能应建立在对收集信息和搜索请求的理解之上,准确的搜索必须处理语义信息。基于自然语言理解技术的搜索引擎,由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,因此查询的结果也更加准确。但是,事实上,我们限制能够处理的是结构化、半结构化的语义和信息,对于非结构化的语义信息处理仍然需要进一步发展。

(原创作品)

拓展知识:

搜索引擎类型

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

一. 基本概念

搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

二. 工作原理

1.抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2.处理网页

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3.提供检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

本回答被网友采纳

搜索引擎类型