搜索引擎的分类与工作原理(简述搜索引擎概念及工作原理)

前沿拓展:

搜索引擎的分类与工作原理

搜索引擎的分类:

1、全文索引

搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

2、目录索引

目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。

3、元搜索

元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合。

搜索引擎的工作原理:

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

扩展资料:

十大搜索引擎:

1、百度

百度是全球最大的中文搜索引擎、最大的中文网站。2000年1月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

2、谷歌

Google(中文名:谷歌),是一家美国的跨国科技企业,致力于互联网搜索、云计算、广告技术等领域,开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。Google由当时在斯坦福大学攻读理工博士的拉里·佩奇和谢尔盖·布卢姆共同创建,因此两人也被称为“Google Guys”。

3、雅虎

雅虎是美国著名的互联网门户网站,也是20世纪末互联网奇迹的创造者之一。其服务包括搜索引擎、电邮、新闻等,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。同时也是一家全球性的因特网通讯、商贸及媒体公司。

4、搜狗

搜狗是搜狐公司的旗下子公司,于2004年8月3日推出,目的是增强搜狐网的搜索技能,主要经营搜狐公司的搜索业务。在搜索业务的同时,也推出搜狗输入法、搜狗高速浏览器。

5、爱问

作为首个中文智慧型互动搜索引擎,“爱问”突破了由GOOGLE、百度为代表的算法致胜的搜索模式。 新浪“爱问”在保留了传统算法技术在常规网页搜索的强大功能外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的先天不足。

6、搜搜

搜搜是腾讯旗下的搜索网站,是腾讯主要的业务单元之一。网站于2006年3月正式发布并开始运营。搜搜目前已成为中国网民首选的三大搜索引擎之一,主要为网民提供实用便捷的搜索服务,同时承担腾讯全部搜索业务,是腾讯整体在线生活战略中重要的组成部分之一。

7、有道

有道是网易旗下利用大数据技术提供移动互联网应用的子公司。网易有道公司已推出有道词典、有道云笔记、惠惠网、有道推广等一系列产品。

8、中搜

中搜是中国国内领先的第三代搜索引擎服务及技术应用提供商。依托第三代搜索引擎和个性化微件,实现了人类知识和搜索技术的融合,通过两大WEB站点、移动APP、云服务平台等载体为网民及企业提供全新的第三代搜索引擎体验。

9、360搜索

360综合搜索,属于元搜索引擎,是搜索引擎的一种,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

10、天网

天网搜索的前身是北大天网。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在 CERNET上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。

参考资料来源:百度百科——搜索引擎


浅谈SEO

SEO全称是seach engine optimization,中文翻译:搜索引擎优化。

搜索引擎优化是通过采用易于搜索引擎索引的合理手段,使网站各项基本要素适合搜索引擎的检索原则并且对用户更友好(Search Engine Friendly),从而更容易被搜索引擎收录及优先排序。

在网站的长期运营中,SEO对于搜索引擎排名和网站流量的提升,有着不可忽视的重要意义。它不像SEM,能快速提升网站展示和流量,SEO是时间积累的过程。这是一项持续性的工作,优化的内容包括网站内容、网站链接、网站关键词及网站布局等。

SEO分为站内优化和站外优化两种方式。站外优化基本以反链投放,本篇文章以SEO站内优化为重点,跟大家交流。

搜索引擎优化(SEO)的影响因素

提起SEO的影响因素,便要从源头来思考搜索引擎的工作原理。根据各类搜索引擎在爬取网页、建立索引以及计算排名所采用的算法,对网站进行有针对性的优化,使其符合搜索引擎的检索原则,从而提升网站在搜索引擎中的排名。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

以百度搜索引擎为例,影响蜘蛛(spider)爬取的因素有以下几种:

1、TDK:T(title标题)、D(description网站描述)、K(keyword关键词);

2、网页文章标题及内容;

3、文章内图片alt属性;

4、内链(反链)、外链;

网站SEO优化策略

1、网站基础优化

(1)域名申请及设置

以B站为例,它的域名是www.bilibili.com。那么,bilibili是域名的主题,域名的主体关系到在搜索引擎的排行。一般来说,关联性高的域名比关联性不强的域名排名更高。

网站各板块在SEO优化中的重要性排行大致为:主域名>二级域名>栏目>内页

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

(2)网站布局优化

SEO并非是等网站搭建好后,再做筹备。不少企业误以为SEO是等网站搭建好再进行地优化,其实SEO最好的时期便是从网站建设初期开始。所谓:工欲善其事必先利其器,与其中后期发现运营效果不佳,大幅度调整网站内容,不如从初期开始,好好思考用户行为和规划网站内容。

①栏目结构

百度蜘蛛一般偏爱栏目清晰、简洁的网站结构。在设计网站栏目结构时,可以参考以下方式:

1)网站的栏目层次控制在3级以内;

2)通过主页可以到达任何一级、二级栏目首页及最终内容页;

3)通过任何一个网页可以返回主页,或跳转其他二级页;

4)通过任何一个网页经过最多3次点击可进入任何一个内容页;

如果你不知道栏目的内容设置,这里还有一个小技巧:通过搜索引擎的引索拓展,来选择栏目。下拉栏出现的问题,便是当前关键词拓展中关注度最高的问题。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

②导航系统

导航有利于百度蜘蛛爬行和抓取网站。在优化导航系统时,可参考:

1)为每个页面设计辅助导航,辅助导航可以是关联锚文本、内链/反链、栏目等;

2)为产品/信息类别较多的网页设计专门的分类目录,例如:商城产品页面、内容板块等;

3)设置sitemap.htm、sitemap.xml(网站结构的网站地图)。两者都是网站地图,但xml sitemap的创建是为了更有利于搜索引擎的抓取策略。所以,通常来说比htm sitemap更为重要。当然,最好两者都具备最好。

可以让技术人员生成sitemap.xml后,将链接放入robort,txt内,最后将sitemap.xml和robort.txt放在网站的根目录下。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

③网页布局

网站的布局直接影响用户获取信息的方式和百度蜘蛛抓取信息的效率。所以,一定要注意以下3点:

1)将最重要的信息放在网页头部最显眼的位置上;

2)网页头部的重要信息要保持相对稳定,不能频繁改动,以便百度蜘蛛抓取;

(3)TDK信息完善

①标题

网站标题极为重要,直接影响搜索引擎中的用户展示量。

标题的字数要求不得超过32个字节,写法大致有3种:

1 核心词 + 品牌词

2 核心词 + 需求 + 品牌词

3 关键词1-关键词2-关键词3-品牌词

以一小众网站(www.abrsm-bj.com)为例,标题则为:英皇考级北京代表处-英国皇家音乐等级考试。其中,英皇考级北京办事处作为它的核心词,英国皇家音乐等级考试作为它的品牌词,便一目了然。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

②网站描述

网站描述与网站点击率挂钩,试想一下就算用户看见你的网站出现在搜索引擎前排,如果你所展现的网站描述乱七八糟,用户会点击进入网站么?显然是不会的。

所以,网站描述虽不与展现量挂钩,但是也是极其重要。一般来说,网站描述字数范围在60-80之间。这里有个小技巧,与上述栏目内的关键词技巧类似,可以通过百度关键词下拉栏内容查找当前用户在意的相关问题,再来策划网站描述。另外,不要堆积关键词,在充分研究用户痛点和需求下,进行网站描述。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

③关键词:

关键词相信大家都有一定了解,这里介绍两种设置关键词的方式。

1 研究竞品网站

通过站长之家,查找竞品网站在各搜索引擎的优化情况,研究其关键词设置的情况,选择适合自己的关键词;

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

2 百度指数

已有备选关键词,通过百度指数,来判断关键词的热门度。当然,如果你没有投放预算的话,这里并不是热门越高越好,应选用300-600的指数值间的关键词(无预算情况)。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

2、网站内容优化

该部分分为两大内容:网页内容优化、图片alt属性优化;

(1)网页内容优化

网页内容要经常更新,页面内关键词的密度在2%-8%之间,需要合理分布在页面的位置内,不能胡乱堆积。因为蜘蛛会判断你在故意为页面堆积关键词,反而降低了网站权重。

另外,文章内容可以适当使用Headline标签(即H标签),H标签是向蜘蛛传递页面内容的关键词在整个页面的重要性,方便蜘蛛判断并抓取页面重点。其中,H标签中<h1>标签仅有1个,而<h2>标签可以有多个,如果懒的话,最少要把h1设置清楚。

H1标签的书写方式=<h1>标题(排名关键词)</h1>

不仅如此,网页文章内容的原创度也需要把控。当然不是让你篇篇原创,至少要懂得如何洗稿。搜索引擎对文章内容的要求有几点:

①要求图文结合;

②要求至少800字;

③如果要保证有效收录,需保证长尾关键词的出现;

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

最后一个小技巧,锚文本。锚文本类似我们在公众号图文内经常使用的超链接,用户点击文字,即可跳转对应页面。设置锚文本的目的是为了增加用户点击率,拉长用户停留时间以及增加蜘蛛爬行时间(留存)。

当然,锚文本不是胡乱设置的,要按以下几点要求执行:

① 图文内容与链接内容的匹配性;

② 文字放在最好的位置,尽量与排名关键词挂钩;

③ 锚文本的页面设置密度:千字不超过4个;

④ 单页面不能多个链接指向一篇文章;

⑤ 从用户需求角度出发(受搜索引擎监控);

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

(2)图片Alt属性优化

网页中,图片不容易被搜索引擎获取,所以在HTML标签中,给图片标签的ALT属性添加关键字文本加以说明,这样就可以被搜索引擎抓取到了。

一般来说,每一张图片都要优化ALT属性,ALT优化的书写方式为alt=“关键词”。这里的关键词并非完全指的是页面关键词,你可以认为“关键词”是长尾关键词。

尽量每一张图片的ALT属性设置要不相同,不然可能会被搜索引擎判断故意优化,导致网站权重的降低。

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

如何白嫖上首页?I 运营笔记:浅谈搜索引擎优化

文末小结

SEO这个行业,比较极端。有些SEO人员短时间可以轻松达到上万,甚至十几万的收入,而大部分SEO人员只能拿3-5k月薪。

学好跟学会是两个概念,SEO不是靠时间来磨的,而是看你对SEO知识掌握的全面性。行业跟做SEO没什么冲突性,任何行业都会通用。如何自主地应对搜索引擎算法的调整,避免算法的惩罚,这就是学好和学会的区别。

千万别闭门造车,一定要通过实操,并且不要被固定思维捆绑。搜索引擎的算法不断在调整,如果你的SEO技术停留在原地而不思进取,结果自然而然。

别拿时间换经验!你所在的是,互联网这个日新月异的行业。

拓展知识: