搜索引擎的工作原理及发展历程(搜索引擎的基本结构和工作原理)

前沿拓展:


谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

导读

自从谷歌公司在2007年引入通用搜索功能以来,搜索引擎结果页( SERP )的内容变得越来越丰富。很多企业使用 SERP 让自己网站在Google搜索页面的排名更加靠前和显著。

而长期以来,谷歌算法及其排名因素背后的秘密一直是人们激烈争论的主题。在大部分时间中,其结果只有10个蓝色链接(即超链接),其争论的焦点是入站链接和关键字密度。而在事后看来,这似乎是纯真时代的一场“低配置”辩论。

通用搜索:点亮谷歌的火炬

随着2007年通用搜索的引入,谷歌搜索引擎中开始注入其他元素。该公司首位产品经理玛丽莎·梅耶尔当时说:“我们正试图打破以往将各种搜索属性分隔开来的壁垒,并将大量可用信息整合到一组简单的搜索结果中。”

谷歌的确一直在沿着这个方向前进。

2007 年以来, SERP 的内部变得越来越丰富,现在包含了大量的垂直领域——图像、视频、新闻、工作、地图等。

人们或许应该问的一个问题是,“谷歌到底是如何确定哪些元素可以出现在 SERP 之中的呢?”

2013 年,当 SERP 优化和管理专家 Jason Barnard 开始研究 SERP 时,开始考虑这个问题。他很快掌握了这 10 个蓝色链接的元素,当时很难同时囊括知识面板、视频框、Twitter 框和其他丰富的元素。

那么问题是:是什么触发了它们?需要“触发”哪些算法触发器才能让这些 SERP 功能出现?

终于,在 2019 年,谷歌公司技术专家 Gary Illyes 向 Jason Barnard 和澳大利亚很多 SEO 解释了通用搜索的机制。

重要的是,必应(Bing)公司已经证实了他们的通用搜索功能在很大程度上是以同样的方式实现的(必应公司的 Nathan Chalmers 的一些见解跟 Barnard 不谋而合),Gary Illyes 说: “这不是谷歌特有的功能。其他引擎也这样做,因为大多数搜索引擎对结果的排名方式几乎相同……这可能适用于每个搜索引擎。”

通用搜索排名:原理大揭秘1.排名因素是什么?

影响网站排名的因素很多,可能多达 200 个因素。但如今,由于算法是机器学习驱动的,所以事情变得更加复杂。 搜索引擎杂志发布了一份有用的指南,将这个复杂的主题分解为 88 个章节。

John Mueller 指出,谷歌的排名因素早已不止这 200 个。

谷歌将它们进行分组:话题性、质量、页面速度、RankBrain、实体、结构化数据、新鲜度……。

这里需要指出几点:

这些因素是真实排名因素(排名不分先后)。每个排名因素包括多个信号。例如,质量主要是 PageRank,但也包括其他信号,结构化数据不仅包括 Schema.org,还包括表格、列表、语义 HTML5,当然还有一些其他的因素。

谷歌为每个排名因素计算一条内容的分数:

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

需要记住的是,本文中的这些数字都是完全假设的。

2.排名因素如何影响竞价

谷歌采用个人排名因素得分并将它们组合起来计算总竞价。重要的是,总竞价是通过将这些分数相乘来计算的:

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

总分上限设置为 2^64 (虽然不是 100% 都是这样,这里参考了小麦和棋盘的数学问题,其中棋盘得出的数字严重偏离了范围,实际上是一种故障安全缓冲)。

这意味着这些分数可能是个位数、两位数、三位数,甚至四位数,而总数永远不会达到这个上限。

如此高的上限也意味着谷歌可以继续投入更多因素,而无需“降低”现有分数来为新分数腾出空间。

3.算法真实:低分扼杀竞价

事实上,总竞价是通过乘法计算的,这是一个惊人的发现。为什么?因为任何低于 1 分的分数都会严重影响其竞价,无论其他分数是多少。

看看下面的数字,就会知道受到多大的影响。因为只要有一个因素的分数低于 1,就足以使该页面失去竞争力。虽然可以用其他因素克服低于 1 的排名因素,但其他因素需要非常强大。因此,忽略薄弱因素是一个糟糕的策略,而努力使这个因素超过 1 是一个很好的策略。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

因此,人们经常在搜索引擎优化(SEO)行业看到的“SEO”纠正的示例,往往是网站“简单地”纠正低于1分的排名因素。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

系统奖励全面得分较高的页面。在某些因素上表现良好但在其他因素上表现不佳的页面将一直处于劣势。而如果采用一个平衡的方法会获胜。

行业专家在解释中对这个做出了很好的类比:“分数全是C的学生要比3A和1个F的学生更好。”

4.“竞价排名”谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

Google基于竞价的排名示例

5.优化最终排名的竞价

排名靠前的结果(比如10个)被发送到下一个算法,该算法旨在优化排名,并删除任何漏掉的不可接受的结果。

这里考虑的因素是不同的,是针对具体案例的。这种重新计算可以提高或降低出价(或者可以想象保持不变)。

因此,需要研究下面的最终竞价集。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

需要注意的是,在这一示例中,有一个结果得到一个 0 分,因此对其完全不考虑或排除(因为是相乘的,所以任何一个 0 分都将保证总分也为 0)。

这是非常激进的。这样的 0 可以通过算法生成。Barnard的猜测是,0 还可以作为实现一些人工操作的一种方式。

可以肯定的是,其顺序发生了变化,有一个最终的网络结果列表/“10个蓝色链接”。最终结果还是让人十分欣慰。

“候选结果集” :元素“夺嫡”之争1.候选结果集争夺搜索引擎首页的位置

每种类型的结果/丰富元素都在有效地竞争首页的位置。

新闻、图片、视频、精选片段、轮播、地图、GBP 等——每一个都提供首页的候选人名单及其竞价。

已经有很多企业竞相出现在首页上,而且这个名单还在不断增长。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

有了这个系统,理论上,谷歌可以创建的丰富元素的没有数量限制。

2.候选人结果排名因素

“候选结果”和“候选结果集”这两个术语来自 Jason Barnard,而不是来自谷歌公司。

影响这些候选结果集中排名的因素的组合必须特定于每个因素,因为有些因素对于单个候选结果集是唯一的,而有些因素则不适用。

例如,alt 标签适用于图像候选结果集但不适用于其他结果集,或者新闻网站地图适用于新闻候选结果集,但不适用其他结果集的计算。

3.候选结果集排名因素权重

对于每个候选结果集,每个因素的相对权重也必然不同,因为每个因素都以特定格式提供特定类型的信息。

其目的是为用户提供最合适的元素:

内容本身。媒体格式。页面上的位置。

例如,新鲜度将成为新闻中的一个重要因素,而 RankBrain 和 MUM 则是精选片段的重要因素。

4.候选结果集竞价计算

每个候选结果集提供的竞价的计算方式与第一个网络/蓝色链接示例相同(通过乘法,假设使用第二个细化算法)。

谷歌公司有多个候选人竞价网页的一个地方(或几个地方,这取决于类型)。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

在搜索页面首页将所有的内容都放在一起

(1)候选人结果集相互竞标

谷歌只是在寻找任何能为用户提供“更好”解决方案的丰富结果。

它希望提供 SERP ,将引导其用户找到问题的最佳解决方案,或尽可能有效地回答他们的问题。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

Jason Barnard 用来做出这些获胜选择的规则是虚构的,而不是谷歌真实使用的。

当它确实识别出“更好”的候选结果时,该结果将被赋予一个位置(以一个或多个传统蓝色链接为代价)。

(2)首页丰富元素的最终“结局”

每个候选结果集都受到特定限制,并且都服从于传统的呈现结果:蓝色链接。

一个结果,一个可能的位置(例如精选片段、知识面板、Google 商业资料)多个结果,多个可能的位置(例如图像、视频、Twitter 框)多个结果,一个可能的位置(例如新闻、实体轮播) :在这个例子中赢家是(注意:用来做出这些选择的规则是虚构的,而不是谷歌真实使用的)下面这样的。新闻:未能超过排名第一的网络竞价,因此相关性不高,没有获得一席之地。图片:有一名获胜者。分配了五个空间,而其他四个可以免费获得。视频:其中两个出价都超过了排名靠前的网络结果,因此它们都获得了一席之地。精选片段:有几个竞价者,但只选择了一个,因为这是“最佳”答案。谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

随着位置被赋予丰富的元素,位置较低的网络结果会下降到第二页。

当更多丰富的元素被添加到 SERP 中后,它们往往在视觉上占主导地位,因此蓝色链接逐渐失去其重要性。蓝色链接不会很快消失,但它们在 SERP 上的可见度越来越低。

不过说来有趣,即便是Jason Barnard,也表示:他自己不知道位置是如何归因于视频或图像的信息,因为他是用自己开发的简单系统而不是谷歌的系统得到的位置。

向未来:SEO进化永不停息

来自 Kalicube Pro 的数据表明,SERP 上的蓝色链接平均数量相当稳定,但通用功能的数量正在增加。

下面是一个快照视图,显示了企业的 SERP 丰富元素( SERP 功能)的平均数量在一年内从 1.5 增加到了 2.5。

谷歌通用搜索排名的工作原理大揭秘:搜索远不止竞价排名

通用搜索越来越主导 SERP ,对于 SEO 来说应该是一个更大的关注点。

通用搜索结果现在在视觉上主导了大多数 SERP ,而传统的蓝色链接获得的点击量也越来越少。这是传统SEO策略给人们带来的担忧,所以需要适应并着眼于更广阔的前景。

通用搜索依赖于非文本元素,如图像、视频、地图、问题、社交渠道等,因此企业需要开发这些格式并将它们整合到策略中,以便在Google(或Bing) SERP 上获得更好的可见性。

不仅如此,由于 Twitter、YouTube 和其他第三方平台往往会主导 SERP 上的通用结果,需要考虑将它们更紧密地整合到 SEO 策略中。

可以这样说,站外 SEO 从未像现在这样重要。

来源: searchenginejou

作者:李睿

拓展知识:

搜索引擎的工作原理及发展历程

一、工具:电脑

二、操作步骤

1.抓取

读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来,被抓取的网页被称之为网页快照。

2.数据库处理

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中有,网站数据库,就是动态网站存放网站数据的空间。索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。简单的来说,就是把【抓取】的网页放进数据库。

3.分析检索服务

搜索引擎从索引数据库中找到匹配该关键词的网页;

4.对收集的结果进行排序

把收集来的网页进行排序,把这些进行最终的排序。

注意事项:蜘蛛程序url抓取页面--存储---原始页面。

本回答被网友采纳

搜索引擎的工作原理及发展历程

、抓取网页
  每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
  2、处理网页
  搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
  3、提供检索服务
  用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 [编辑本段]【全文搜索引擎】  在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  这种引擎它的特点是搜全率比较高。

搜索引擎的工作原理及发展历程

搜索引擎的工作原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

搜索引擎的工作原理及发展历程

搜索引擎的工作原理是什么?为什么能找到我们想要的东西?