常见搜索引擎特色算法(搜索引擎的常用算法)

前沿拓展:

常见搜索引擎特色算法

2.1基于词频统计——词位置加权的搜索引擎
利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。
1)词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权重极小,从而解决词频统计的缺陷。
2)词位置加权
在搜索引擎中,主要针对网页进行词位置加权。所以,页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信息也是非常重要的,它一般能精确的描述所指向的页面的内容。
2.2基于链接分析排序的第二代搜索引擎
链接分析排序的思想起源于文献引文索引机制,即论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。链接分析排序的思路与其相似,网页被别的网页引用的次数越多或被越权威的网页引用,其价值就越大。被别的网页引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。链接分析排序算法大体可以分为以下几类:基于随机漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加强模型的,如HITS及其变种;基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法:
1)PageRank算法
PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成为全球最成功的搜索引擎的重要因素之一,同时开启了链接分析研究的热潮。
PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其计算公式为:

PR(A):页面A的PageRank值;
d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。
R(Pi):页面Pi的PageRank值;
C(Pi):页面链出的链接数量;
PageRank值的计算初始值相同,为了不忽视被重要网页链接的网页也是重要的这一重要因素,需要反复迭代运算,据张映海撰文的计算结果,需要进行10次以上的迭代后链接评价值趋于稳定,如此经过多次迭代,系统的PR值达到收敛。
PageRank是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样,减少了用户检索时需要的排序时间,极大地降低了查询响应时间。但是PageRank存在两个缺陷:首先PageRank算法严重歧视新加入的网页,因为新的网页的出链接和入链接通常都很少,PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名,而忽略了页面的主题相关性,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。为此,各种主题相关算法纷纷涌现,其中以以下几种算法最为典型。
2)Topic-Sensitive PageRank算法
由于最初PageRank算法中是没有考虑主题相关因素的,斯坦福大学计算机科学系Taher Haveli-wala提出了一种主题敏感(Topic-Sensitive)的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的,但并不表示它在其它领域也是重要的。
网页A链接网页B,可以看作网页A对网页B的评分,如果网页A与网页B属于相同主题,则可认为A对B的评分更可靠。因为A与B可形象的看作是同行,同行对同行的了解往往比不是同行的要多,所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。
3)HillTop算法
HillTop是Google的一个工程师Bharat在2001年获得的专利。HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。HillTop算法认为具有相同主题的相关文档链接对于搜索者会有更大的价值。在Hilltop中仅考虑那些用于引导人们浏览资源的专家页面(Export Sources)。Hilltop在收到一个查询请求时,首先根据查询的主题计算出一列相关性最强的专家页面,然后根据指向目标页面的非从属专家页面的数量和相关性来对目标页面进行排序。
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法,避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
但是,专家页面的搜索和确定对算法起关键作用,专家页面的质量对算法的准确性起着决定性作用,也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低(1.79%),无法代表互联网全部网页,所以HillTop存在一定的局限性。同时,不同于PageRank算法,HillTop算法的运算是在线运行的,对系统的响应时间产生极大的压力。
4)HITS
HITS(Hyperlink Induced Topic Search)算法是Kleinberg在1998年提出的,是基于超链接分析排序算法中另一个最著名的算法之一。该算法按照超链接的方向,将网页分成两种类型的页面:Authority页面和Hub页面。Authority页面又称权威页面,是指与某个查询关键词和组合最相近的页面,Hub页面又称目录页,该页面的内容主要是大量指向Authority页面的链接,它的主要功能就是把这些Authority页面联合在一起。对于Authority页面P,当指向P的Hub页面越多,质量越高,P的Authority值就越大;而对于Hub页面H,当H指向的Authority的页面越多,Authority页面质量越高,H的Hub值就越大。对整个Web集合而言,Authority和Hub是相互依赖、相互促进,相互加强的关系。Authority和Hub之间相互优化的关系,即为HITS算法的基础。
HITS基本思想是:算法根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
实验数据表明,HITS的排名准确性要比PageRank高,HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷:首先,HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;第三,HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器(Connectivity Server)等操作,可以实现一定程度的在线实时计算,但其计算代价仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特别重要的地位,目前许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。但目前第二代搜索引擎有着两个不足之处,在此背景下,基于智能化排序的第三代搜索引擎也就应运而生。
1)相关性问题
相关性是指检索词和页面的相关程度。由于语言复杂,仅仅通过链接分析及网页的表面特征来判断检索词与页面的相关性是片面的。例如:检索“稻瘟病”,有网页是介绍水稻病虫害信息的,但文中没有“稻瘟病”这个词,搜索引擎根本无法检索到。正是以上原因,造成大量的搜索引擎作弊现象无法解决。解决相关性的的方法应该是增加语意理解,分析检索关键词与网页的相关程度,相关性分析越精准,用户的搜索效果就会越好。同时,相关性低的网页可以剔除,有效地防止搜索引擎作弊现象。检索关键词和网页的相关性是在线运行的,会给系统相应时间很大的压力,可以采用分布式体系结构可以提高系统规模和性能。
2)搜索结果的单一化问题
在搜索引擎上,任何人搜索同一个词的结果都是一样。这并不能满足用户的需求。不同的用户对检索的结果要求是不一样的。例如:普通的农民检索“稻瘟病”,只是想得到稻瘟病的相关信息以及防治方法,但农业专家或科技工作者可能会想得到稻瘟病相关的论文。
解决搜索结果单一的方法是提供个性化服务,实现智能搜索。通过Web数据挖掘,建立用户模型(如用户背景、兴趣、行为、风格),提供个性化服务。


鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI

u1s1是什么意思?干饭人又是个啥?

百度智能搜索到底有多智能?

当在北戴河阿那亚的剧场里被突然问到类似稀奇古怪的问题,一时发懵的我只想当场掏出手机,给对方来个“百度一下”。

说起来,搜索这项“旧技术”最近的讨论声浪还真有点大。

君不见那边新搜索工具广告天天见,这厢听着海风看话剧的百度万象大会现场,老牌搜索引擎也打出了“百度一下 生活更好”的新Flag。

百度智能搜索到底有多智能?

其实,正如百度集团执行副总裁沈抖现场所说,大家对搜索太过熟悉,以至于感受不到其中技术的变革,搜索的技术存在感那是真“感知不强”。

但实际上,“AI技术为搜索提供了持续进化的动力”。

要知道,从古早的文本检索到今天的人工智能,网络世界的网页数量已经从千万级别,增长到了千亿级别,其中囊括的内容可能比世界上所有图书馆加起来还要丰富。

在今天,想要高效连接今天的互联网用户和海量信息,搜索引擎其实真的没那么简单。

那么,究竟是怎样的技术在驱动搜索引擎更智能地读懂你的需求,连接丰富而又准确的信息?

技术本身在海量信息增长面前,又经历了怎样的进化?

今天,不如就借着这阵势,我们来好好说道说道。

从文本检索到人工智能

现在,在使用搜索引擎时,你可能不只会用几个关键词,还会直接输入你想问的问题。

百度智能搜索到底有多智能?

但其实早期的搜索引擎采用的是文本检索的方式,只能做到用户查询关键词和网页文本内容的匹配。

可想而知,虽然这样的方式也能把不同网页的关联度进行排序,但总体的搜索质量是比较差的。

而实际上,网页之间有着丰富的链接关系,就像高引论文往往本身质量更高,高质量的网页通常也会被更多的网页链接。

为了进一步挖掘和利用这种链接信息,1996年,李彦宏开发了Rankdex,即超链分析算法。这是世界上首个使用超链接来衡量网站质量的搜索引擎。

也就是说,搜索引擎在收到一个用户查询之后,不仅仅会去匹配网页的内容,还会看看其他网页对这个页面的“评价”。

在此之后,谷歌也提出并使用了类似的PageRank技术,并大获成功。

超链分析算法,可以说是当今每个主要搜索引擎排名算法的基础。值得一提的是,在谷歌创始人拉里·佩奇的第一项网页排名专利申请中,也引用了Rankdex。

如果说早期的搜索技术门槛不算高,从超链分析这个阶段开始,一些今天大家伙普遍依赖的搜索引擎,就开始一骑绝尘,拉开差距了,比如谷歌,比如百度。

并且这些做搜索引擎起家的公司,如今也都成为了人工智能领域的先行者。

百度智能搜索到底有多智能?

而事实上,甚至在人工智能未成显学之时,为了让搜索结果更快、更精准、更个性化,搜索领域的巨头们就已经着手将机器学习的方法引入到搜索引擎中。

谷歌就在2016年上线了基于反向传播技术的RankBrain算法。该算法可以基于语义分析和词库联想,帮助用户更快地搜索冷门的搜索结果。

而如今在NLP领域大火的BERT,也已被部署到谷歌搜索当中。有了预训练语言模型的加持,即使你输入的是一大段文字,搜索引擎也能够get到你想查什么。

根据谷歌的数据,BERT的引入为至少10%的搜索结果带来了改善。

国内,百度同样是最早投入人工智能技术研发的科技公司,在2010年就成立了单独的NLP部门。

以搜索引擎技术为核心,在过去十余年中,百度演化出了语音、图像、知识图谱、自然语言处理等人工智能技术。这些长期的技术积累,甚至在今天进一步拓展到了自动驾驶、AI芯片等领域。

这也是为什么,在今天,搜索引擎不仅仅能按照你输入的文字进行搜索,甚至直接给一张图、一段音乐,AI也能理解你想要获取怎样的信息。

百度智能搜索到底有多智能?

正如沈抖所说,打开百度App,你说出想问的问题,可能旁边的人还没听清,百度搜索已经能够提供精准的答案。而当你在阿那亚的任何一个角落,看到不认识花草苗虫,打开相机使用视觉搜索,也能快速得到答案。

智能搜索时代背后的关键技术

所以,进化到智能搜索时代,让搜索引擎高效连接你和信息的核心技术,具体又有哪些?

正好,在百度万象大会上,沈抖也介绍了百度AI是如何推动搜索持续进化的。我们一项一项来看个仔细。

百度智能搜索到底有多智能?

深度语义匹配模型

2013年,百度搜索就上线了基于百亿级用户行为数据的SimNet语义匹配模型,使得搜索结果的相关性得到明显提升。

简单来说,SimNet利用词向量技术解决了关键词匹配失败的问题,可以有效得到同义词、近义词之间的相似度,并且具有较强的泛化能力。

在实际应用场景下,海量的用户点击行为数据会被转化为大规模弱标记数据,再搭配并行训练算法,SimNet首次实现了可完全取代基于字面匹配的策略,而且可以直接建模非相似度类的匹配问题。

其核心网络结构形式,包括BOW、CNN、RNN、MMDNN等。

百度智能搜索到底有多智能?

而基于这样的深度语义模型,百度搜索已经将一次全库语义检索的时间优化到了10ms。

跨模态深度阅读理解技术

前文也说到,有AI加持的搜索引擎,不仅仅能读懂文字,还能听懂语音、看懂图片。

其实,机器认知世界的方式,也不仅仅局限在自然语言,还包括对语音、视觉等多模态信息的综合应用。

为此,百度重点研发了知识增强的跨模态深度语义理解技术。

百度智能搜索到底有多智能?

一方面,打造拥有超过50亿实体5500亿事实的多元异构知识图谱。通过将知识作为背景信息,增强了模型的语义推理能力。

另一方面,通过知识关联跨模态信息,运用语言描述不同模态信息的语义,进而让机器实现图像和语言、语音和语言的一体化理解。

基于这项阅读理解技术,百度还在EMNLP-MRQA 2019阅读理解国际测评中,以超出第二名近2个百分点的优势获得冠军。

智能化多模搜索技术

2015年,百度就提出了多模搜索的理念,探索从文本搜索向语音、视觉、视频等多模态搜索的演进。

而这或许也是智能化搜索在用户层面最直观的体现——在百度App中,你可以体验语音搜索、拍照搜索、实时翻译、植物识别、视频搜索等丰富的搜索方式。

除了前面提到的跨模态语义理解,在语音搜索上,百度搜索还集成了语音识别、语音合成等多项AI技术,让搜索引擎能“听”会“说”,不仅能够听清、听懂,还能深入理解语义,给出绘“声”绘色的最佳搜索答案,让搜索引擎与用户之间的交互方式变得更加自然、流畅、便捷。

视觉搜索上,百度搜索综合了图像识别、人脸识别、OCR、物体检测、实体匹配等多项视觉技术,并依托于搜索系统对全网图像、视频内容的索引以及用户行为,得以细粒度的识别用户实时录制的视频流、拍照及上传图片中的实体和文字,进而围绕实体在用户视觉场景下的需求,链接并组织相关内容及服务提供给用户,实现诸如拍题搜索、商品搜索、实时翻译、植物识别等智能视觉搜索能力。

百度智能搜索到底有多智能?

是的,不仅仅是图文,作为当前最红火的通用信息载体,视频现在也可以直接用来搜索,并且结合百度超大规模的知识图谱,能实现精准的搜索、定位。

本次万象大会上,百度短视频生态平台总经理宋健还最新发布了好看视频知识图谱产品功能,并提出“帧视频”的概念。

“帧视频”能延伸知识信息的密度,让短视频的知识含量浓缩到“帧”的颗粒度,推动短视频成为更好的知识获取的载体。

百度智能搜索到底有多智能?

智能搜索不只是搜索

说了这么多,有没有觉得日常的搜索背后,涉及到的信息量属实庞大?

在今天,信息的获取方式看似便捷,但海量资讯涌来的同时,也带来了越来越多的无效信息。

这也是为什么我们会希望搜索的结果更加精准。

而在此之外,我们还更希望搜索更能读懂人的意图,更节省时间、更高效地解决问题。

基于这样的用户需求,如百度,一方面在持续增强搜索本身的属性,形成知识服务产品体系,提高首条搜索满意度。

而另一方面,因为搜索天然与各种服务场景具有连接性,百度也在围绕“搜索+服务”做加法,以进一步降低用户的决策成本,提升服务能力。

所以,这也就解释了为什么百度App品牌升级为“百度一下 生活更好“。

在这样的背景之下,智能时代的搜索不再是简单的信息检索,而是人们与信息、服务等各种解决方案之间的高效连接方式。

此外,智能搜索和智能推荐融合,还会进一步扩大化这种效率的提升。

沈抖对此解释说:

互联网基础设施日益完善,整个社会信息度在提升,用户希望更快速地完成闭环需求。

百度正是基于这一需求的变化,提出了“人格化”和“服务化”战略。

百度智能搜索到底有多智能?

所谓“人格化”,是放大每一个创作者的才能,并把生态里的创作者和用户直接相连,更快速地满足用户需求。

百度副总裁、百度App总经理平晓黎就举了这样的例子:在知识分享领域,以往通过搜索,人们只能找到相关的静态页面;而搜索进化后,百度还可以直接将搜索结果连接到能提供该结果的人,如专家、自媒体、知识博主等,进一步消除信息差。

百度智能搜索到底有多智能?

而“服务化”,则是让用户“所见即所得”。

围绕这样的核心战略,基于搜索,百度把短视频和重点垂类放在了关键位置上,百度健康、百度电商业务也在万象大会上首次公开亮相。

归根结底,从搜索到服务的落地,有很多的场景可以选择,而这些场景的服务实现,又恰恰需要搜索不断进化,从搜索到智能搜索。而想要做到这一点,背后对技术能力的要求着实不低。

事实上,也有不少业内人士认为,搜索自诞生之初,就拥有类似于人工智能的属性:你在搜索框中提问题,机器来找出答案提供服务。

而作为人工智能技术的第一块试验田,不论是搜索还是机器都在不断进化,搜索现在也确实成为了人工智能技术的集大成者。

其越来越“机智”的进化背后,驱动力正是来自百度这样的企业、研究机构长期积累的AI能力,让搜索从原来的搜索分发,到提供服务,提供人格化的内容和交互体验。

下一个十年,搜索技术还会有怎样的超进化?

你还有怎样的期待,不妨在评论区一起聊一聊~

参考链接:[1]https://en.wikipedia.org/wiki/Robin_Li[2]https://lusongsong.com/info/post/406.html?__SAKURA=11996c0e2fcf9a9a499373a06e725a6ea1618368577_198393[3]https://zhuanlan.zhihu.com/p/80491738[4]https://blog.google/products/search/search-language-understanding-bert

— 完 —

量子位 QbitAI · 号签约

关注我们,第一时间获知前沿科技动态

拓展知识: