搜索引擎 主要

前沿拓展:

搜索引擎 主要


现有的搜索引擎基本上分为三类:

1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。

1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。

1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成

用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.

网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。

索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。

搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。

3 搜索引擎的主要性能评价指标

3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。

3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。

3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。

3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。

另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4 搜索引擎检索信息的局限

2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。

4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。

4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。

4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。

4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。

4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5 搜索引擎未来的发展趋势

新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。

答案补充

5.1 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。

5.2 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更

加准确。

5.3 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。答案补充

5.4 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。

5.5 结构化搜索 所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。

5.6 本土化的搜索 世界上许多著名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。

5.7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。


编辑导语:本文作者从视频搜索的特点、优势、存在问题和未来发展等方面,以具体的视频平台为例,对不同平台中视频搜索的特点进行了分析,感兴趣的小伙伴们一起来看一下吧。

视频搜索——视频平台、搜索引擎下的功能初探

由于笔者即将入职微软视频搜索相关产品经理岗位,因此在入职前夕学习和整理了视频搜索的相关知识(参考了一些大佬的文章,再次表示感谢),且在学习过程中发现有较少文章是聚焦于视频搜索的,因此作此篇文章,希望与各搜推、视频相关pm分享和交流。

本篇将从视频搜索的基础知识, 包括其特点、优势、存在问题和未来发展等入手,随后通过具体的视频平台和搜索引擎中的视频搜索功能分析,来了解不同平台中视频搜索的特点。

一、视频搜索基础

搜索的关键是搜索内容丰富度和搜索结果准确度,其本质是“人找物”。搜索基于人的主动性,给用户其最想要的东西。用户在搜索的时候大多带有明确的目的或者相对明确的目的,比如在阅读APP搜书,用户触发搜索的时候可能知道自己想看哪本;比如在淘宝搜商品,用户大概知道他想买什么。

搜索的步骤大概分为以下五步:

query—语义理解—召回(retrieval/indexing)—排序(ranking)—返回结果。

用户触发搜索,输入关键词。系统根据用户输入的关键词,进行关键词的理解,包括分词、词根化(在印欧系语言中更常用)。系统根据结合用户的用户画像以及系统的搜索数据(热搜、广告等)找到全部搜索结果。对全部搜索结果进行优化,排序。将搜索的结果呈现给用户。

了解了搜索的基础知识后,我们再来关注视频搜索。我们首先应在概念上应明确一点,“视频搜索”的定义与“文字搜索”、“图片搜索”的定义是不同的,文字、图片搜索的输入内容是文字和图片本身,而“视频搜索”的输入内容并非视频,而是文字,其结果才是视频。

因此,“视频搜索”本质上还是“文字搜索”,或者将“视频搜索”称为“搜索视频”更为合适。

视频搜索的特殊性大致有以下四点:

在技术实现上难度更大,一些ugc视频标签的获取基于对视频内容的nlp、cv深度学习训练用户对视频搜索内容的满意度是延时反馈,往往体现在点击内容之后的后续播放过程中应注意内容版权的播放控制问题(针对不同人群、地域、时段的控制)需要对短查询有较强的处理能力,应尽量在用户输入一到两个字符时就猜到(适配电视设备),且应考虑方块键盘和线性键盘的设计差异

视频搜索的优点也很突出,对用户来说,在搜索教学类、技术类等方面内容时,用户体验更好。

例如,对于搜索“红烧肉做法”这一搜索内容来说,视频搜索要优于文字搜索和图片搜索;对视频平台和搜索引擎来说,视频搜索可以提高长尾流量的曝光度,并且帮助平台了解用户的喜好,便于做更精准的推荐算法

与此同时,视频搜索的商业化空间巨大,我国视频用户量为9.27亿,用户基数庞大。视频搜索在知识付费、短视频电商、关键词搜索点击付费(广告主付费)等方面都有其商业化空间。

不过,视频搜索仍存在一定的问题:

视频搜索仍然依赖文本检索,通过关键词匹配视频的标题、介绍、关键词、以及字幕信息(OCR)。视频内容的特征难以提取与处理,特别是对于语音、图像等元素的识别存在很大的困难。视频搜索效率低,难以快速定位关键信息,也不方便用户记录,存档(例如,当搜索“b站up主何同学的原名是什么”时,往往没有专门讲解“何同学的原名是什么”的视频,因此,获取这一信息要花费更多的时间。此外,视频前面包含的贴片广告及片头都影响用户获取信息的速度)。视频搜索结果容易形成APP信息孤岛,如何打破APP之间的壁垒,形成更丰富的视频内容池是决定视频搜索内容全面性的关键。当下的视频搜索更多是生活化的检索,学术检索、垂直专业类、权威类视频信息存在缺失与短板。

未来视频搜索的发展空间主要体现在以下三点:

提升nlp理解能力和算法精准度,使视频搜索精准度提升建立高质量、丰富的视频内容储备池,尽力打破APP壁垒,提供更丰富的内容通过用户主动搜索,带动长尾流量的精准覆盖度

由于视频搜索功能主要存在于视频平台和各个搜索引擎当中,接下来我们将从具体的视频搜索功能入手,分析当前主流视频平台和搜索引擎中视频搜索功能的特点。

二、视频平台搜索功能分析

在视频平台部分,首先我们选取了youtube、抖音两大视频平台的APP版本进行关于其视频搜索的分析。我们将从两大视频平台APP的搜索输入页搜索结果页分析他们的页面布局和功能。

1. 视频平台搜索输入页分析视频搜索——视频平台、搜索引擎下的功能初探

在抖音搜索输入页,作为二维码大国,国内各个app的标配便是扫描icon。在搜索区设置扫码功能,用户可以通过扫描花朵来搜索其为哪种花,显然,在某种意义上,抖音把扫码也当做了一种搜索形式。

视频搜索——视频平台、搜索引擎下的功能初探

在搜索输入页的「猜你想搜」模块中,我们可以看出,抖音更注重推荐算法的力量,算法和推荐在某些场景会影响用户的搜索意图。

往往用户点击搜索栏之前想搜的是「如何做宫保鸡丁」,但她很容易被热搜推荐所吸引搜索当日热词,而忘记了本身的搜索目的。这样的推荐,虽然的确抓住了用户心理,提升了点击量和浏览时长,但对用户来说,反而增加了其搜索的时间成本,也加重了信息茧房的包裹。

而youtube在搜索栏则不做任何推荐,页面简单干净,只展示用户的历史搜索,其默认用户打开搜索框即有一定的搜索意图,没有再对其进行推荐,这样不会影响用户的搜索时间。

但与此同时,不得不承认,「搜索榜单」和「猜你想搜」的推荐确实是引流的好办法,用户可以被轻易地吸引到抖音主推的直播、音乐和品牌板块,实现其在这些层面的商业化意图。

2. 视频平台搜索结果页分析视频搜索——视频平台、搜索引擎下的功能初探

对于视频平台的搜索结果页来说,相比于web搜索引擎页面,其展示的空间是极其有限的。 因此,youtube和抖音都选择了隐藏各个筛选条件,用户需要点击右上角才能添加筛选条件。

youtube支持的视频筛选、设备支持等功能似乎要更完善一些。

首先,因为youtube提供视频类型较完善,因此youtube支持按视频、频道、播放列表等进行筛选,而抖音由于其内容大多为短视频,因此不提供此类筛选条件。

其次,通过对比可以看出,两个视频平台的筛选条件和自身平台特点紧密相关,抖音作为短视频平台,其视频长度筛选范围更短(可选1分钟以内的),而youtube作为视频应用界的元老级app,其提供的视频种类更丰富,功能也更全面,因此其在筛选区也提供了更完善的筛选服务,包括可以按是否为直播/4K/HD/VR180/3D/HDR视频进行筛选,也可以挑选含有字幕、已购买的视频等等。

在搜索内容区,抖音提供综合结果、视频结果等多种结果页面;在综合结果页面中,其整体页面布局更像是搜索引擎,提供大而全的搜索结果,且针对不同的搜索内容可能会有不同的排列布局。

例如搜索“北京疫情”会首先看到疫情防控直播、当日新增感染人数等特制模块,而搜索“产品经理”等内容,则会得到相关视频、相关百科、相关热榜、相关直播、相关店铺等,其相关搜索结果大多数为字节系产品(例如百科、抖音直播、抖音电商),可见抖音在搜索方面的商业化布局。

视频搜索——视频平台、搜索引擎下的功能初探

在抖音搜索的视频结果页面,几乎所有的空间都留给了视频,视频结果呈2*2排列,并且充分体现了抖音的推荐算法优势,根据搜索字段推荐「相关搜索」,并且在点击视频返回原搜索页面后跳出「大家都在搜」,帮助用户更快地定位满意的搜索结果。

同时,「点赞量」作为抖音衡量其短视频视频热度最重要的指标之一,也作为搜索结果展示在视频封面右下角,用户可以通过点赞量侧面判断视频的热度。

而youtube提供的搜索结果页简单清晰,单屏只展示单列视频,每屏可展示3个视频,处于屏幕中心的视频会开启自动预览,用户无需跳转到二级页面即可看完完整的视频。

相比于抖音更重视视频的「点赞量」,youtube显然认为「浏览量」更适合作为衡量视频优劣的指标,因此,youtube在搜索结果中将视频「浏览量」显示在了搜索结果视频的下方,供用户参考。

总体来讲,对于视频平台(app)来说,有限的视频展示空间使他们不得不折叠其筛选条件,而筛选条件根据各视频平台自身的视频特点而定。在搜索结果展示方面,视频平台提供了视频自动预览、相关搜索等功能,同时展示了视频封面、标题、点赞、浏览量等相关信息。

三、搜索引擎视频搜索分析

在搜索引擎的视频搜索功能分析部分,我们选取了google、bing国内版、bing国际版以及百度进行分析。我们仍然会通过APP的搜索输入页和搜索结果页分析他们的页面布局和视频搜索功能。

1. 搜索引擎搜索输入页分析视频搜索——视频平台、搜索引擎下的功能初探

从搜索内容来看,各个搜索引擎均提供了文字搜索、语音搜索,而只有百度在此之外还提供了图片搜索。

页面整体布局上来看,google的布局最为清爽,仅有一个搜索框和logo组成;而bing国内版还设置了自动背景图片,并提供背景图片相关知识的搜索引导;而百度则在搜索框的基础上提供了搜索榜单,为热点新闻导流;bing国际版则推荐了丰富的每日图片、最近首页封面图,但此类推荐可能会使得页面看起来臃肿,而且推荐内类别也有一定重复。

视频搜索——视频平台、搜索引擎下的功能初探

除此之外,bing国内版、国外版都针对视频搜索页面提供了单独的搜索页面,用户可点击bing顶部导航栏「搜索」进入。bing国外版的页面的视频推荐更丰富,设计更美观,点击推荐视频可直接跳转到youtube等视频平台,但调研发现存在一些点击视频无法跳转的情况。bing国内版的设计相对简单,但点击推荐话题只能跳转到二级搜索页面,且提供的视频搜索结果较少。

在视频页进行推荐是具有一定意义的,因为搜索视频的用户目的性较其他搜索的目的性较弱,往往用户来到视频平台或搜索引擎只想看热播剧集或者某一类型的电影,因此此时为用户推荐该地区热门剧集和他喜欢的电影可以提升用户的满意度。视频搜索页面的设计也可以参照各大视频网站的设计。

2. 搜索引擎搜索结果页分析视频搜索——视频平台、搜索引擎下的功能初探

在搜索引擎视频搜索结果页,各个搜索引擎的页面设计差异不大。

顶部基础功能上,google会优先展示搜索结果数量和查询时间,向用户展示其强大的搜索能力,加强其搜索品牌认知。各个搜索引擎也会在顶部提供网页、图片、视频等搜索分页,以帮助用户更好地定位其先要的搜索内容类型,在这一部分各个搜索引擎也会引入其公司相关业务线产品,比如百度地图、bing词典等,为其他业务线产品导流。

视频搜索——视频平台、搜索引擎下的功能初探

在搜索框模块,谷歌和bing仍保留搜索输入页已有的文字和语音搜索功能,而百度的语音搜索、图片搜索却消失了。

在筛选区,百度的筛选功能最弱,仅支持按推荐关键词筛选。其他引擎都支持按时长、日期、清晰度、来源搜索;此外bing支持按视频是否为免费/付费视频筛选,此功能无疑节省了许多用户的时间,减少了用户的筛选时间成本;而google还支持按是否有可隐藏字幕进行筛选,此筛选功能对听障用户极为友好。

在视频区,各个视频引擎提供了视频封面、标题、时长、发布账号、发布时间等视频信息。但在视频的现实与排列上,谷歌和百度采取单列排列,每页展示3-4个视频,搜索结果排列清晰,而bing则采取四列排列,每页展示8个视频,每个视频占有空间相对较小。

在搜索结果视频上,google和百度搜索有视频资源优势:由于youtube为google子公司,因此google的搜索结果中youtube视频占主流;而由于好看视频为百度产品线重要成员之一,百度视频搜索主要也由好看视频构成,两家大厂通过视频搜索实现了其相关视频网站的引流。

在这一点上,微软bing搜索由于缺少关联的视频平台,因此在视频内容丰富性、相关商业化布局、以及视频搜索精准度(体现在视频深度学习训练数据)等方面略逊一筹

总体来说,对于搜索引擎,其展示空间更丰富,可以支持丰富的筛选功能、搜索推荐和视频展示。各搜索引擎在设计时,也可以充分考虑其公司在搜索方面的优势,结合商业化布局进行更好的设计。

本文由 @两条人PM 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

拓展知识: