搜索引擎的工作原理及发展历程(了解搜索引擎的工作原理及发展历程)

前沿拓展:

搜索引擎的工作原理及发展历程

你好!

搜索引擎的工作原理包括如下三个过程:首先在互联中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

发现、抓取网页信息需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所获得的信息保存下来以备建立索引库和用户检索。 

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

索引库的建立关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。新浪搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。对于网站数据的检索,新浪搜索引擎采用多进程的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均的检索时间在0.3秒左右)。对于网页信息的检索,作为国内众多门户网站的网页检索技术提供商的百度公司其搜索引擎运用了先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,因此可大大缩短对用户搜索请求的响应时间。作为慧聪I系列应用软件产品之一的I-Search2000采用的超大规模动态缓存技术,使一级响应的覆盖率达到75%以上,独有的自学能力可自动将二级响应的覆盖率扩充到20%以上。

我现在是在搜外网上学习,他们网站上有很多免费的视频教程可以学,建议去看看!


*作者:零点有数副总裁 许正军

【导读】

本世纪之初,人类社会最伟大的发明之一当属“大数据”。

业内比肩蒸汽、电力、计算机及信息技术分别对第一次、第二次和第三次工业革命的影响作用,把大数据的出现跟第四次工业革命紧密关联。

本文将从大数据的内涵、形成、作用、使用和安全等五个方面,对大数据进行阐述。

关于最早是谁提出“大数据”这个概念的说法有点不一。较多人认为是美国著名咨询公司麦肯锡(McKinsey);也有人认为是维克托·尔耶·舍恩伯格(Viktor Mayer-Schönberger),2010年,维克托·尔耶·舍恩伯格在《经济学人》上发布了长达14页对大数据应用的前瞻性研究;还有人认为应归功于美国未来学家阿尔文·托夫勒(Alvin Toffler),1980年,阿尔文·托夫勒在《第三次浪潮》一书中就提到“信息爆炸”这个概念,被认为提及到了大数据的雏形。

时至今日,到底哪种说法正确已经不再重要,重要的是人类已经处于大数据时代。

零点有数:大数据的前世今生,你真的了解吗?

什么是“大数据”?

2015年8月,我国出台《促进大数据发展行动纲要》,并对大数据进行了定义。《纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”

除此之外,业内较多的是对大数据的特性进行描述。认为大数据具有海量性(Volume)多样性(Variety)高速性(Velocity)易变性(Variability)价值(Value)“5V”特性

零点有数:大数据的前世今生,你真的了解吗?

其实,还可以从实践的层面来认识大数据。从类型来看,大数据包括网络日志、音频、视频、图片、地理位置信息等种类繁多的数据;从来源来看,大数据既有来自物理世界、也有来自心理世界和虚拟人工世界的各种变化发展活动的信息化表征和数据记录(来自英国哲学家卡尔∙波普尔(Karl Popper)的“三个世界”理论)从发展来看,大数据是信息技术的高速发展及其在各行各业的广泛应用所带来的信息爆炸式增长的结果;从价值来看,爆炸式增长的各类数据是一种资源,具有潜在的价值,人们可以通过挖掘利用数据价值资源,以改变我们的生活、工作和思维方式,赋予我们以大数据思维和大数据方法来认识世界、改造世界。

大数据是如此之重要,以至于认为“大数据是如同电一样重要的生产要素”,“大数据是如同水、电、气一样重要的基础设施”

零点有数:大数据的前世今生,你真的了解吗?

大数据的形成

大数据,首先是数据。数据是指计算机可以处理的电子化和数字化记录与测量,将信息加工成电子化和数字化记录与测度这一过程离不开信息技术的发展与应用,正是因为信息技术的飞速发展与广泛应用,才让大数据应运而生。

在计算机和通信技术出现之前,信息主要以模拟数据的形式进行记录与交互。如报章、书籍、影像和照片、图书馆、档案室、书柜、磁带。信息的计量单位一般采用媒介的计量单位,如藏书多少册、档案多少袋、记录多少本、影像多少卷、照片多少张等等。信息获取不便利、信息交流不通畅、信息量相对较少是这一时期的典型特征。

上世纪60年代中期,微型计算机问世,从此开启了信息的电子化、数字化记录和表示。随着80年代中期个人计算机的诞生和90年代中期互联网络的兴起,信息技术以“摩尔定律”(即每18个月在价格不变的情况下,计算机硬件性能提高一倍)的速度高速发展,并广泛应用到各行各业。办公自动化、电子邮件、搜索引擎、即时通讯等新的信息获取与信息交互方式竞相出现,相伴而生的是越来越多的信息以电子化、数字化方式进行表示、存储、传输。信息获取越来越便利、信息交流越来越通畅、信息量也越来越多是这一时期的主要特征。尽管曾有“信息大爆炸”的预言,但这一时期的信息量相对今天而言,还是“小数据”时代,信息还可以用MB、GB为单位进行度量与存储。

历经2000年前后短暂的“网络泡沫”,互联网技术还是以前所未有的速度一路高歌猛进。2005年前后,电子商务逐渐成为一个新的“物种”,“虚拟经济”迅猛增长,给传统实体经济活动模式带来一场影响至深的变革。无独有偶,电子政务也开始影响着政府公共服务方式。此时,政治、经济、文化、生活、工作等各项人类社会活动开始走上“线上”——电子化、数字化的信息爆炸式增长。

特别是2010年移动互联网的出现,进一步实现了人类社会各项活动跨时空地进行,这进一步加速了人类社会信息化进程。“数据”急剧增长,数据的度量与存储开始使用TB(1TB=1024GB),大数据初露尖尖角。尔后的2013年被认为是大数据元年。

零点有数:大数据的前世今生,你真的了解吗?

由此可见,大数据是伴随信息技术的高速发展与广泛应用所带来的信息爆炸式增长的结果。

今天,信息爆炸式增长不只来自互联网和移动互联网(主要解决“人与人”(Human to Human,H2H)之间的信息通信)“人机交互”(Human-ComputerInteraction或Human-Machine Interaction,HCI/HMI)、“机与机”(Machineto Machine,M2M,机器与机器之间的通信)及物联网(Internetof Things,IoT)等将是信息爆炸式增长并进而形成大量数据的重要来源。

零点有数:大数据的前世今生,你真的了解吗?

大数据到底会有多大?早在2017年,国际数据公司IDC公布的《数据时代2025》报告显示,2025年人类的大数据量将达到163ZB;2020年国际消费类电子产品展览会上,英特尔预测2025年全球数据量将达175ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB),相当于65亿年时长的高清视频内容。

姑且不论哪个预测更准确,但有一点是趋同的,那就是全球的数据量将呈爆炸式增长。

零点有数:大数据的前世今生,你真的了解吗?

大数据到底有何用处?

2011年5月,美国咨询公司麦肯锡发表了著名的题为《Bigdata:The next frontier for innovation,competition and productivity》(《大数据:下一个创新,竞争和生产力前沿技术》)的研究报告,并在报告中指出:“大数据,如实物资本和人力资本一样,将成为现代经济活动、创新和增长的重要要素”。

2012年,被誉为“大数据时代的预言家”的英国人维克托•迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,对人类的认知和与世界交流的方式提出了全新的挑战。他认为数据的核心就是预测,大数据将为人类的生活创造前所未有的可量化的维度,大数据已经成为新发明和新服务的源泉,并在书中详细展示了谷歌、微软、亚马逊、IBM、苹果、Facebook、Twitter、VISA等大数据先锋们如何使用大数据进行新发明和新服务的应用案例,并且断定,“大数据”作为资产计入企业资产负债表是迟早的事情。

2015年,我国《促进大数据发展行动纲要》指出,大数据成为推动经济转型发展的新动力,大数据成为重塑国家竞争优势的新机遇,大数据成为提升政府治理能力的新途径。全球范围内,运用大数据推动经济发展、完善社会治理、提升政务服务和监管能力正成为趋势。

由此,大数据是资产,是关键生产要素。大数据因其潜在的资源价值,已成为社会经济发展、国家治理能力和治理体系建设、企业业务创新增值、人们追求美好生活的重要驱动力。围绕大数据价值挖掘与应用的各项产业发展(如云计算、5G、物联网、人工智能等数字产业化和传统产业数字化转型等),将引领世界新一轮科技创新和产业变革

零点有数:大数据的前世今生,你真的了解吗?

大数据如何用?

大数据的本质还是数据,只是对数据的使用需要大数据思维和方法。大数据中的数据(Data)本身是没有用的,要经过一定的处理后才能派上用场。这些数据来自多源,种类繁多,错综复杂。但这些数据携带着很多信息,需要经过一定的梳理和清洗,才能形成有用的信息(Information)。这些信息里面包含着许多规律,可以借助智能算法进行挖掘提炼成知识(Knowledge)。这些知识可以应用于问题解决和决策支持等实践,这便产生了智慧(Intelligence)(如下图所示)

零点有数:大数据的前世今生,你真的了解吗?

今天,如雷贯耳的“智能化”,其实就是从数据中形成信息、从信息中提炼知识、将知识应用实践的一系列过程。实际过程中,需要结合业务领域知识,通过“经验模型化,模型算法化,算法软件化”三步曲,即根据业务领域知识建立业务模型(经验模型化),然后根据数据变化趋势设计智能算法(模型算法化),并通过数据训练、数据验证和数据测试,得到最优模型,最后将算法模型进行代码编程封装成软件模块(算法软件化),为智慧应用敏捷开发提供智能服务引擎。在商业领域,基于数据的价值挖掘应用案例已经比比皆是。在政府公共服务领域,基于大数据的公共服务和政府科学决策也正方兴未艾。例如,基于12345政务服务便民热线中的“数据”挖掘,可实现智能分析,对市民可能遇到的“急难愁盼”问题提前关注,化被动应对为主动干预,赋予城市治理以“智慧”。

大数据发展到一定地步,借助人工智能算法,充分挖掘大数据的知识价值,用以对未来世界的变化发展进行预测;人们也可以借助数字孪生技术来指导、优化客观世界的运行逻辑。

零点有数:大数据的前世今生,你真的了解吗?

大数据面临的挑战

鉴于大数据之于国计民生的重要作用与意义,在实施大数据发展战略、鼓励和支持数据在各行业、各领域的创新应用的过程中,如何加强数据的安全管理是必须面对的一个挑战;面对“大数据杀熟”,如何加强对大数据创新应用的有效监管以及个人信息保护,也是大数据发展过程中需要应对的问题。

零点有数:大数据的前世今生,你真的了解吗?

为了应对这些挑战,我国分别于2021年6月10日和8月20日,先后出台了《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,这为我国大数据产业的健康发展起到了保驾护航的作用。

拓展知识: