分类式搜索引擎(搜搜搜索引擎分类)

前沿拓展:

分类式搜索引擎

目前世界上最具代表性的目录或分类搜索引擎是雅虎网站。分类式搜索引擎的优点是将信息分门归类,用户能完整系统、清晰方便地查找到某一大类的信息,例如艺术与人类、休闲与体育等。但是,分类式搜索引擎的搜索范围比全文式搜索引擎要小得多,它不像全文式搜索引擎将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某一类别下,再记录一些摘要信息,对该网站进行简要概述。例如


字节的「去算法」实验

一款 App,模式和方法是次要的,重要的是满足用户的需求。

作者 | 鱼三隹

编辑 | 靖宇

又一款「邀请制」App,一码难求。

早在今年 1 月,就曾有消息爆出字节正在瞄准「兴趣社交」,将推出一款名为「识区」的 App。近期,随着多家媒体对「识区」集中报道,这个主打兴趣类阅读、结合了社交与内容的 App 引发了大范围的讨论。

过去的十年间,数据爆炸后产生的大量信息让每个人应接不暇,「算法推荐」因此成为了帮助人们筛选信息、推荐内容的利器,像今日这类主打「算法推荐」的 App,凭借其算法的高效与精准,无疑取得了巨大的成功。

但当完全依赖「算法推荐」的弊端逐渐显现,网信办加强规范力度后,一场关于「去除算法」的实验正在展开。

除了在今日提供「关闭算法推荐」按钮外,字节的这款「识区」App,也一反常态,不仅没有以其一贯推崇的「算法推荐」为核心,反而试图回归以兴趣、社交为核心的「人的推荐」。

01 识区是什么?

很多用户体验过后的感受是,在「识区」的身上,他们看到了许多其他产品的影子。

字节的「去算法」实验

首先,「识区」的概念理解起来就像是豆瓣的「小组」,有着相同兴趣的用户可以自由选择加入一个或几个「识区」,加入后可以发布与该「识区」主题相符的内容。每个「识区」会有一名「区长」,类似于豆瓣小组的「组长」。每名用户都可以创建自己的识区,只需要按照 App 的指引,一步步填写名称、简介、设置头图就能完成创建。

字节的「去算法」实验

此外,「识区」创建成功后,区长还可以选择给自己的识区配备一个 Bot(自动抓取内容的机器人),设置 Bot 的筛选规则时,系统会先调查用户感兴趣的主题,并从这一个主题出延伸出更多的关键词供用户选择,以此确定 Bot 的订阅源。其中,Bot 大部分的订阅源来自于今日,但用户也可以通过添加 RSS 订阅来扩宽内容的订阅范围。

字节的「去算法」实验

这样的设置不禁又让人们想起了早期的「即刻」以及黯淡已久的 RSS(简易信息聚合)阅读器们。

在内容浏览上,「识区」提供了两种不同的内容推送方式,一个是「识区」栏目内部的内容更新以及推荐,一个是可以看到其他不同识区帖子的「推荐」功能。

字节的「去算法」实验

用户在浏览时可以在帖子下方进行回帖互动、交流,「回复」按钮旁的「点亮」按钮则充当了点赞、收藏的功能,在「点亮」的同时用户还可以记录下当时的感悟。

字节的「去算法」实验

在内容发布上,「识区」同样提供了两种发布形式,一个是需要用户原创的文本模式,一个是可以引用外部链接进行分享的转发模式。

02 一场「去算法」实验

2006 年 9 月 6 日,Facebook 推出 News Feed 功能。彼时的人们对于这一功能并不买账,甚至因为担忧隐私问题而进行了一段时间的抗议。但当这一推荐模式显著提升了人们获取信息的效率后,越来越多的人对此产生了依赖,直到今天,类似 News Feed 的算法推荐功能已是如此的常见。

在国内,「今日」是最先拥抱「算法推荐」的产品。2012 年 8 月今日正式上线,不到 90 天就拥有了 1000 万用户,很快便与腾讯、网易、搜狐等传统新闻门户网站抗衡。

但凡事皆有两面,伴随着 2016 年美国大选、脱欧公投等算法操纵事件的发生,算法推荐的负面逐渐呈现在人们面前,大众不免开始反思。

今年 3 月,《互联网信息服务算法推荐管理规定》正式施行,在监管的要求下,今日、微信、小红书、知乎等 App 纷纷上线了「关闭算法推荐」选项,但也有不少用户对此表示质疑。

曾经有用户在某平台上尝试勾选「关闭个性化推荐」按钮,随后该平台上呈现的内容几乎是无序的,无奈之下,只得重新打开个性化推荐。如果为了实现对算法推荐的自主选择权,要以损失优质的阅读或使用体验为代价,显然是大多数人不愿意看到的。

字节的「去算法」实验

大部分 App 都在使用「算法推荐」| Unsplash

如何能在避开「算法推荐」弊端的同时,依旧维护好用户的使用体验呢?

尽管在 2013 年,作为 RSS 代表产品的 Google Reader 宣布关闭时,张一鸣曾经在文章中写道:相比依靠人工仅从门户网站获取资讯,订阅模式其实进步了,但很明显还没能满足大部分人的资讯需求。什么样阅读器更智能更适合大众,将成为 Google Reader 的替代品?我和我的团队回答是的基于算法的个性化推荐。

但这一次,字节还是把突围的机会押注在了 RSS 身上。

RSS 是一种将用户所订阅的内容,全部聚集在同一个平台上进行阅读的工具。

传统的 RSS 使用门槛高,用户首先要明确知道自己需要什么样的信息并找到相应的订阅源,其次需要有极强的自制力,能够有规律的整理并控制好 RSS 订阅源的数量。

字节的「去算法」实验

很多 RSS 阅读应用「继承」了 Google Reader 的用户 | 网络

「识区」中的大部分内容是由 Bot 在订阅源中抓取而来的,因此识区与 RSS 在本质上都是用户自主订阅内容,但与上述传统 RSS 的不同之处在于,识区还加入了兴趣以及互动。

由于每个「识区」内部的成员拥有共同的兴趣爱好,以「识区」为单位汇聚内容就相当于 App 基于兴趣分类自动帮助用户筛选、整理订阅源,既降低了传统 RSS 的高门槛,也为有着相同喜好的用户群体提供了彼此交流、互动的空间。

小宇宙的创始人 Kyth 曾经在《RSS 二十年》中表达过自己对于 Google Reader 失败的思考,他认为 Google Reader 之所以失败是因为「有相近兴趣爱好的人应该有的聊,至少你们可以在收取同一个信息的时候获得共鸣,但 Google Reader 没有做好这件事儿」。

如今看来,「识区」的出现恰好弥补了 Google Reader 的缺陷。

此外,虽然识区 Bot 在抓取内容的过程中仍旧有算法的参与,但算法重要性被弱化了,兴趣与人际间的分享反而占据了重要部分。

「识区」功能栏底部单列出的「推荐」功能,除了会推送用户自身加入的识区内容外,还会推送其他识区的相关内容,帮助用户在自身兴趣之外进一步拓宽信息来源。

弱化算法存在感的识区打破了今日、抖音等传统字节系产品的单列信息流分发模式,「识区」的多维内容推送,进一步打破了用户的「信息茧房」。

在互联网出现的早期,简单的分类目录、搜索引擎就能满足用户的检索需求;而随着网络技术的发展、信息内容的增长,只有采用算法推荐才能帮助用户脱离信息「苦海」,提升效率;如今,除了高效,用户更在意的是内容质量,新的需求必然催生新的产品。

从豆瓣、即刻、贴吧到 RSS,与其说「识区」是他们的「大杂烩」,不如说这一次字节有意要集各类 App 之所长,努力寻找「去算法」时代的一下个内容增长点。

正如张一鸣曾经所说的那样:「一款产品选择什么模式和方法是次要的,最重要的是在多大程度上满足了多少人的资讯需求。」

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

拓展知识:

分类式搜索引擎

可分为三种 搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 元搜索引擎(META Search Engine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

分类式搜索引擎

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。  

【工作原理】

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 

2、处理网页 

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 

3、提供检索服务 

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

本回答被网友采纳