搜索引擎的原理 文档

前沿拓展:

搜索引擎的原理 文档


搜索引擎的工作原理

搜索引擎的工作原理包括如下三个过程:首先在互联中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

发现、抓取网页信息需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所获得的信息保存下来以备建立索引库和用户检索。

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

索引库的建立关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。对于网站数据的检索,搜索引擎采用多进程的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均的检索时间在0.3秒左右)。对于网页信息的检索,作为国内众多门户网站的网页检索技术提供商的百度公司其搜索引擎运用了先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,因此可大大缩短对用户搜索请求的响应时间。作为慧聪I系列应用软件产品之一的I-Search2000采用的超大规模动态缓存技术,使一级响应的覆盖率达到75%以上,独有的自学习能力可自动将二级响应的覆盖率扩充到20%以上。


2022年搜索引擎研究报告

第一章 行业概况

搜索引擎是基于网络爬虫、检索排序、网页处理、大数据处理、自然语言处理等技术,根据用户需求与推荐算法,运用特定策略从互联网海量信息中检索出匹配信息反馈给用户的检索技术,为用户提供快速、高相关性的信息服务。

中国互联网与移动互联网的快速发展使中国网络用户的规模持续扩大,直接促进了搜索引擎用户的不断上升,进而强化了搜索引擎的媒体属性。同时,互联网日益成为消费者获取信息的主要渠道,广告主的营销预算与投入不断向互联网渠道及媒体转移,搜索引擎作为互联网的主要流量入口,成为广告主互联网广告营销与推广的渠道选择,使中国搜索引擎行业的广告业务营收稳步增长,从而推动行业整体快速发展。

图 搜索引擎产业链结构图

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

中国的搜索引擎公司主要有百度、搜狗、好搜、必应、360搜索、谷歌中国等。国际上主要有谷歌、微软、苹果、Yahoo、Ask、维基、DuckDuckGo、Aol、Yandex、Webcrawler、WolframAlpha等。

中国搜索引擎指数共包含5支成分股。企业总市值达到73155.28亿元。企业员工总人数为569,064人。

第二章 商业模式和技术发展2.1 搜索引擎产业链

图 搜索引擎产业链图

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

图 搜索引擎营销产业链全景图

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 中信证券

在整个工业互联网产业中,搜索引擎处于产业链的下游位置。当工业互联网将数据流数字化和信息识别后,再应用在搜索引擎中。但是在搜索引擎营销产业链中,搜索引擎属于产业链的中游。上游的广告商将广告投放在搜索引擎中,搜索引擎再将广告呈现给观众。因此搜索引擎会受到工业互联网发展、上游广告商广告投放和下游用户等三个因素的影响。

2.2 商业模式

搜索引擎的主流商业模式都是在搜索结果放置广告,通过用户的点击向广告商收取费用。国内的搜索引擎公司主要以竞价排序为其商业模式。根据广告商付费排列的结果。广告客户在选择和购买关键词时要进行竞价,根据竞价的多少决定在针对某个关键词进行搜索时的结果的排名先后顺序。按照互联网用户的搜索习惯,他们一般不会点击所有搜索结果,而是通常点击前十个搜索结果。因此,通过竞价排名较前的企业将会有机会赢得更多直接客户的访问。

搜索引擎还可以以关键词广告为盈利模式。广告用户针对自己产品的特点,向搜索引擎服务商选择和购买相关的关键词。当搜索与这些关键词相关的内容时,广告商的广告将会与搜索结果同时出现,从而将广告商的产品信息提供给互联网用户。随着搜索引擎的发展,众多的搜索引擎还组成了搜索引擎联盟,也就是多家网站使用同一个搜索引擎服务商的搜索页面。目前国内最有影响的搜索引擎联盟是由中搜联合5000多家网站组成的。

2.3 技术发展

现在搜索引擎进行的工作原理主要分为以下三个步骤:

搜索引擎蜘蛛访问Web,进行网页抓取;对抓取来的网页进行预处理,然后再建立索引;在搜索界面进行查询服务。

目前,常用的搜索引擎工具包含网络爬虫、索引建立、内容检索、链接分析等相关技术。

爬虫

批量型爬虫:目标和范围明确,目的实现立即停止;增量型爬虫:为应对网页不断更新的及时反应。垂直型爬虫:针对某个特定领域通过主题过滤。暗网抓取:针对常规方式难以爬取到的网页。

索引建立

(1)两遍文档遍历:通过扫描文档,将其包含的文档收集到临时数据集内,通过对关键字出现频次及其在海量文档中出现的全局信息进行统计,刻画该关键字的整体描述。在获取以上信息后,通过获取空间,即全局信息索引大小,将倒排索引内容储存起来并扫描遍历,生成关键字优先排列表信息;

(2)排序法:用内存存放中间结果及字典信息,随着新文档的不断增加,所占用的内存会越来越多,为了释放内存,将排好序的序列清出内存放入磁盘,可以实现以固定内存对任意文档集合创建索引;

(3)归并法:除了数据字典以外的字典信息都会被清空并写入磁盘,有效地避免后续索引被占用的情况。

内容检索

支撑搜索引擎对查询结果的排序,体现爬取网页和反馈结果的关联。

链接分析

随机游走:从某个网页以一定的概率跳转到其所包含的链接;子集传播:依据规划的传播方式,分配给某子集特定的传播需求,依次将权重传递给其他链接网页。

图 搜索引擎工作原理

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 知网

搜索引擎作为工业互联网的下游产业,伴随着大数据、云计算等互联网技术的发展,搜索引擎也同样会不断发展。未来搜索引擎将会更加关注结果的准确性和相关性,面向更开放、高效、更智能的趋势发展,更加强调交互性和客户友好程度。

第三章 行业估值、定价机制和全球龙头企业3.1 行业综合财务分析和估值方法

图 指数PE/PB

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

图 指数市场表现

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

搜索引擎行业估值方法可以选择市盈率估值法、PEG估值法、市净率估值法、市现率、P/S市销率估值法、EV企业价值法、EV/Sales市售率估值法、RNAV重估净资产估值法、EV/EBITDA估值法、DDM估值法、DCF现金流折现估值法、红利折现模型、股权自由现金流折现模型、无杠杆自由现金流折现模型、净资产价值法、经济增加值折现模型、调整现值法、NAV净资产价值估值法、账面价值法、清算价值法、成本重置法、实物期权、LTV/CAC(客户终身价值/客户获得成本)、P/GMV、P/C(customer)、梅特卡夫估值模型、PEV等。

图 主要上市公司估值对比

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

图 百度主营构成

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 天风证券

图 微软主营构成

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 第一证券

3.2 行业发展驱动因子

计算机技术的发展

中国的计算机技术发展较快。搜索引擎与AI、大数据、云计算等技术的发展息息相关。因此随着中国计算机技术的不断发展,中国搜索引擎行业将会不断发展。

多产业的结合

行业内的头部企业的主营业务都不仅只有搜索引擎,还有其余业务。例如除了搜索引擎业务外,百度拥有爱奇艺、智能云等业务,微软拥有智能云和个人电脑计算机等业务。随着业务的拓展,这些公司会拥有更多的数据流,增强对搜索引擎相关性和精确性的发展。

3.3 行业风险分析

表 常见行业风险因子

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行

3.4 竞争分析

图 2022年中国搜索引擎Top10

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行

SWOT分析

优势:行业壁垒高。目前国内处于寡头市场,百度、必应、IE、搜狗、有道、谷歌等企业掌握大多数的市场。进入行业需要很高的知名度,高投入,且技术需求高。劣势:研发投入成本高。例如2020年百度研发投入高达195.1亿,同比增长6.3%,领先其他互联网头部公司,百度中国AI专利申请量第一,在深度学习、自然语言处理、语音、智能驾驶等呈现出明显优势。机会:其他业务联合搜索引擎业务一同发展,扩展业务范围。威胁:暂无。

中国搜索引擎行业与国际企业比较

目前国内的搜索引擎以百度为主。其他搜索引擎的市占率较低。我国搜索引擎用户规模达7.95亿人次,使用率为78.7%,从国内搜索引擎占有率数据来看,百度依然牢牢占据龙头地位,PC端市场占比81.26%,移动端市场占比80.62%。

国外市场以谷歌的Chorme浏览器为主。目前,Chrome浏览器市占率66.64%,遥遥领先;Microsoft Edge市占率10.07%,Safari市占率9.61%。

3.5 发展和行情复盘

2022Q1板块下行且波动性较大,受到疫情影响,广告业务承压,导致搜索引擎公司的股价出现下跌和波动较大的趋势。

百度行情复盘与财务状况

图 PE/PB Bands

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

谷歌行情复盘与财务状况

图 PE/PB Bands

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

3.6 中国企业重要参与者

中国主要企业有百度 [BIDU.O]、[000708.SZ]、网易[NTES.O]等。

图 美股主要公司

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

百度 [BIDU.O]:是拥有强大互联网基础的领先AI公司。百度愿景是:成为最懂用户,并能帮助人们成长的全球顶级高科技公司。百度拥有数万名研发工程师,这是中国乃至全球都顶尖的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

网易[NTES.O]:是中国领先的互联网技术公司。 在开发互联网应用、服务及其它技术方面,始终保持中国业界领先地位。本着对中国互联网发展强烈的使命感,缔造美好生活的愿景,网易利用最先进的互联网技术,加强人与人之间信息的交流和共享。

3.7 全球重要竞争者

全球非中国主要企业有苹果[AAPL.O]、微软[MSFT.O]、谷歌[GOOG.O]等。英国的搜索引擎 abrexa、SearchEngine、Splut;德国的搜索引擎 Yabba!、Wlw、Acoon、Bellnet、Fireball;俄罗斯的搜索引擎 Yandex、Rambler、Akavita、All、meta;马来西亚的搜索引擎 New Malaysia、Cari!;葡语的搜索引擎 uol、Cusco;韩语的搜索引擎 Naver;日语的搜索引擎 Goo、Ceek;西班牙的搜索引擎 Apali、Ciao;瑞士的搜索引擎 Blinde-kuh、Abacho、cnous、helles-koepfab,意大利的搜索引擎 Godado等。

图 美股主要上市企业

2022年搜索引擎研究报告

资料来源:资产信息网 千际投行 iFinD

苹果[AAPL.O]:苹果公司于1977年1月3日根据加利福尼亚州法律注册成立。公司设计,制造和销售智能手机,个人计算机,平板电脑,可穿戴设备和配件,并提供各种相关服务。

微软[MSFT.O]:微软公司成立于1975年4月4日。公司开发和支持软件,服务,设备和解决方案,这些软件,服务,设备和解决方案可为客户带来新价值,并帮助个人和企业充分发挥其潜力。公司提供一系列服务,包括基于云的解决方案,为客户提供软件,服务,平台和内容,并且公司提供解决方案支持和咨询服务。

谷歌C[GOOG.O]:Alphabet Inc. 是谷歌(Google)及谷歌旗下各个子公司的控股公司,于2015年进行重组成立。谷歌于1998年9月4日在加利福尼亚成立,于2003年8月在特拉华州重新注册成立。Alphabet涉足各个领域,包括技术,生命科学,资本投资和研究。其子公司包括Google,Calico,GV,Google Capital,Google Fiber等等。谷歌公司致力于互联网搜索、云计算、广告技术等领域,开发并提供大量基于互联网的产品与服务。

第四章 未来展望

技术发展推动行业发展

中国的计算机技术发展较快。搜索引擎与AI、大数据、云计算等技术的发展息息相关。因此随着中国计算机技术的不断发展,中国搜索引擎行业将会不断发展。

多产业的结合

行业内的头部企业的主营业务都不仅只有搜索引擎,还有其余业务。例如除了搜索引擎业务外,百度拥有爱奇艺、智能云等业务,微软拥有智能云和个人电脑计算机等业务。随着业务的拓展,这些公司会拥有更多的数据流,增强对搜索引擎相关性和精确性的发展。

Cover Photo by Sherise VD on Unsplash

拓展知识: