搜索引擎工作过程(搜索引擎工作过程一般包含几个步骤)

前沿拓展:

搜索引擎工作过程


搜索引擎的工作原理

搜索引擎的工作原理包括如下三个过程:首先在互联中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

发现、抓取网页信息需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所获得的信息保存下来以备建立索引库和用户检索。

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

索引库的建立关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。对于网站数据的检索,搜索引擎采用多进程的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均的检索时间在0.3秒左右)。对于网页信息的检索,作为国内众多门户网站的网页检索技术提供商的百度公司其搜索引擎运用了先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,因此可大大缩短对用户搜索请求的响应时间。作为慧聪I系列应用软件产品之一的I-Search2000采用的超大规模动态缓存技术,使一级响应的覆盖率达到75%以上,独有的自学习能力可自动将二级响应的覆盖率扩充到20%以上。


互联网时代,只要有搜索引擎,就有SEO。所以SEO不仅不会过时,还有越来越多的企业开始重视,那么如何从零开始学习SEO呢?

SEO的工作主要就是搜索引擎优化,是为了让优化的网站在搜索结果页有良好的排名,那么学习SEO第一步就要先了解搜索引擎。

SEO工作如何从零开始学习

1、什么是搜索引擎?

只要是获得网站网页资料,建立数据库并提供查询的系统,我们都可以称之为搜索引擎。不光是最初的百度、谷歌等大型的搜索网站,包括淘宝、抖音等平台的搜索系统,都可以认为是搜索引擎的一种。

搜索引擎依靠网络机器人(又叫网络蜘蛛或网络爬虫),通过网络上的各种链接获取大量的网页信息,按照一定的规则进行分析整理,这里所说的规则就是搜索引擎的算法。

为了更好的服务网络搜索,搜索引擎的算法是在不断变化的,作为SEO工作人员,必须时刻了解算法的更新,才能有利于对网站进行优化。

2、常见算法有哪些?

飓风算法:打击网站恶意采集

惊雷算法:针对作弊链接及恶意刷点击等作弊行为

天网算法:严打盗取用户隐私

烽火算法:针对窃取用户数据及恶意劫持的作弊行为

极光算法:针对落地页时间规范的问题

闪电算法:针对移动端搜索页面首屏载过慢的问题

蓝天算法:打击新闻源售卖软文、目录行为

冰桶算法:针对发布恶劣诱导类广告的页面进行打击

清风算法:针对网页标题作弊骗取用户点击及骗取用户下载等作弊行为

石榴算法:打击广告,打击弹窗。优化广告投放方式,提高有效收录率。

绿萝算法:打击链接交易。不参与交易,内容为王。

细雨算法:针对B2B网站标题。标题不要带官网,联系方式,堆积关键词。

SEO工作如何从零开始学习

3、搜索引擎如何工作?

通过前面我们了解到,搜索引擎是通过网络蜘蛛在互联网当中爬行来获取网页信息的,那它是如何把这些网页展现在搜索结果页的呢?

收录页面:这一步是通过网络蜘蛛来完成的,网络蜘蛛通过抓取算法来决定收录哪些页面。当然,互联网上有无数个页面,搜索引擎想要收录所有页面难度非常大,所以搜索引擎在抓取页面时,页面的链接广泛度以及外链的数量和质量是重要的参考因素。

过滤页面:搜索引擎对已经收录的页面进行过滤,将一些质量低,对用户没有价值的页面过滤。掉这一过程主要考虑的是用户体验,比较典型的有桥页、跳转页及一些违规页面,在这一过程中就会被过滤掉。

建立索引:在经过前两个步骤之后,搜索引擎会将剩下的页面进行标记和识别,并将这些信息转化为结构化的数据(包括网页的信息、标题、关键词、页面描述、外链等)存储在搜索引擎的服务器中,建立完善的索引数据库,便于用户在搜索时进行识别和匹配,并呈现出最佳的信息。

显示信息:当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会对其进行一些列复杂的分析,并根据分析的结果在索引库中寻找与之最匹配的一些列网页,通过用户搜索的关键词中需求的强弱及索引库中网页的优劣进行打分之后,按照分数将网页展现给用户。

4、搜索引擎如何给网站打分?

通过上文我们了解到,网站的排名不仅与用户输入的关键词需求强弱相关,搜索引擎给网站的分数也是至关重要的,那么网站分数是如何形成的呢?

以谷歌为例,谷歌排名的公式为:关键词分数×0.3+域名权重×0.25+外链分数×0.3+用户数据×0.1+内容质量分数×0.1+人工加分-自动或人工降分

从公式中我们可以看出,与排名相关的因素有:关键词、域名权重、外链、用户数据、内容质量以及人工干预等因素。

总结一下

通过对搜索引擎的了解,我们就可以对SEO工作有一个针对性的学习了,对于零基础的小伙伴来说,也可以针对搜索引擎工作的基本原理来制定一个自己的学习计划,包括对网站内部链接的优化、关键词的优化、外链的优化的学习,还有如何提高网站域名的权重、对网站用户数据的把控以及如何提高网站的内容质量等相关因素,有简入深的进行系统的学习,相信会很快的掌握SEO工作的要领。

最后,想要了解更多的互联网知识,记得点赞关注哦!

拓展知识:

搜索引擎工作过程

什么是搜索引擎?它是怎么工作的呢

搜索引擎工作过程

网络搜索爬虫

追答

搜索引擎爬虫指的是搜索引擎用于自动抓取网页的程序或者说叫机器人。这个就是从某一个网址为起点,去访问,然后把网页存回到数据库中,如此不断循环,一般认为搜索引擎爬虫都是没链接爬行的,所以管他叫爬虫。他只有开发搜索引擎才会用到。我们做网站,只需有链接指向我们的网页,爬虫就会自动提取我们的网页。