搜索引擎的类型及其工作原理.(搜索引擎原理和特点)

前沿拓展:

搜索引擎的类型及其工作原理.


首先我们要知道提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出蜘蛛程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 

目录索引,与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。 

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定。 


一、抓取

搜索引擎的原理是什么?

搜索引擎不可能手动抓取互联网站的页面。那么程序员就编写了一个可以自动抓取的程序,也就是我们说的spider或者爬虫。

爬虫会收集互联网上中包含“keywords”相关的所有内容,爬虫将会自动访问互联网,把虽有相关内容收集。

二、建立索引数据库

蜘蛛会扫描一定IP地址范围内的网站,沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站收集网页信息。为了保证最新收集的信息,它还将回访已被捕获的网页。网络机器人或网络蜘蛛收集的网页需要其他程序进行分析。在添加到索引数据库之前,根据某些相关算法大量计算网页索引。

搜索引擎的原理是什么?

三、在数据库中搜索排序

搜索引擎拥有的文档中的每个单词都有一个反转列表。它记录了单词出现在多少文档中,分别是哪些文档,每个文档分部出现多少次,分别出现在哪里。这样当搜索相关单词时,百度就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要分别处理文档的不同部分,构建反转列表。将单词的每个部分添加到属于这个部分的反转列表中。

搜索引擎的原理是什么?

真正意义上的搜索引擎通常是指收集数千万到数十亿个网页,索引网页中的每个关键词,建立索引数据库的全文搜索引擎。当用户搜索关键字时,所有包含在页面内容中的关键字的网页都将被搜索为搜索结果。系统会对其进行一系列复杂的分析,根据分析结论在索引库中找到最匹配的一系列网页,根据用户输入的关键词所体现的需求和网页的优劣进行评分,并根据最终分数进行排列。

拓展知识:

搜索引擎的类型及其工作原理.

搜索引擎的工作原理是什么?为什么能找到我们想要的东西?

搜索引擎的类型及其工作原理.

很多知识明明可以简单的学,只是我们没有接触到好的材料才走弯路。

互联网是美国人发明的,看看美国人怎么讲搜索引擎的吧!

http://v.youku.com/v_show/id_XODQ0Njc5ODcy.html

搜索引擎的类型及其工作原理.

tcndle

搜索引擎的类型及其工作原理.

lnxmob