诗词搜索引擎(诗词关键词搜索)

前沿拓展:

诗词搜索引擎

搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。这里我们根据自己的经验给大家提出些建议。

我们日常信息需求大致可分为两种,一种是寻找参考资料,另一种是查询产品或服务,那么对应的搜索引擎选择就应该是全文搜索引擎(Full-Text Search Engine)和目录索引(Search Directory)。为什么?

对前一种需求来说,由于目标非常具体,而目录索引中链接条目所容纳的信息量有限,无法满足我们的要求,因此全文搜索引擎便自然成了我们的选择。按照全文搜索引擎的工作原理,它从网页中提取所有的文字信息,所以匹配搜索条件的范围就大得多,也就能满足哪怕是最不着边际的信息需求。这也就是为什么现在多数目录索引都采用其他全文搜索引擎提供二级网页搜索的原因。

相反,如果我们找的是某种产品或服务,那么目录索引就略占优势。因为网站在提交目录索引时都被要求提供站点标题和描述,且限制字数,所以网站所有者会用最精练的语言概括自己的业务范围,让人看来一目了然。而多数全文搜索引擎直接提取网页标题和正文作为链接的标题和描述。用过全文搜索引擎的人都有这样的体会,就是搜索结果显示的信息往往过于杂乱,让人无法一眼就判断出该网站的性质。就我们来说,虽然我们是Google坚定的拥护者,但在搜索商业信息时还是经常用到搜狐、新浪、网易的目录搜索。

此外,当你要搜集某一类的网站资料时,目录索引的分类目录就是你天然的宝库。

那么究竟哪几个搜索引擎能够为我们所用呢?为方便大家查阅,我们结合平常的经验列出以下表格供各位参考:

常 用 搜 索 引 擎 一 览 表

国外搜索引擎:
搜索目标(英文) 搜索引擎/目录索引
一般资料 Google
资料涉及非常冷僻的领域 AllTheWeb
特殊资料(其他主要引擎都查不到时) InfoSeek/WebCrawler/Vivisimo等多元引擎

产品或服务 Yahoo/Overture*

国内搜索引擎:
搜索目标(中文) 搜索引擎/目录索引
一般资料 Google
古汉语(诗词)类资料 百度(个案显示这方面百度有独到之处)

产品或服务 搜狐、新浪(质量较高)/网易(较全)

* Overture虽为全文搜索引擎,但由于搜索结果排名靠前的都是付费商业网站,且这些网站的排列与全文引擎的工作原理无关,因此将它与Yahoo放了在一起。


首先在这里介绍下我们做这款小程序的初衷,我呢是魔都 UI 设计师,我老公是程序员。我们在陪我家姑娘(目前 5 岁)国学启蒙背古诗的时候发现,有时出门在外不明白古诗的含义还要百度查半天,而且也没有按我们背古诗顺序排的,当然在市面上也找到些 app,但大部分是要收费的。我和我们爸爸一商量,做一款专门学古诗的小程序吧,这样我们可以用也分享出来给家里有学生的宝贝们用。现在刚刚成型,测试阶段免费分享出来,看大家都有什么需求我们继续更新!感谢!

古诗乐园~一款拯救文艺退化癌帮你秒懂古诗词的免费小程序

下面我简单介绍下我们已经做好的这款古诗小程序: 古诗乐园是一款诗词数达到数万首的小程序,涵盖各类诗词场景,帮助你全方位掌握了解诗词。

分类清楚,涵盖全面 从小学一年级到高中同步课本教材古诗分类,方便学生按照年级需要学习背诵古诗

古诗乐园~一款拯救文艺退化癌帮你秒懂古诗词的免费小程序

内容全面,方便理解 每首古诗里都有译文、注释和赏析,理解背诵更简单,也可以点击麦克风背诵自己喜欢的古诗文。

古诗乐园~一款拯救文艺退化癌帮你秒懂古诗词的免费小程序

古今名家,领略风采 古今名家,按照年代逐一分类,了解诗人背景,领略诗人风采,更好的理解诗词含义

古诗乐园~一款拯救文艺退化癌帮你秒懂古诗词的免费小程序

搜索「古诗乐园」体验古诗,体验之后有什么意见或者建议也可以告诉我哦~期待你们的回复

拓展知识:

诗词搜索引擎

对于数据集按照关键词快速检索功能性需求大致要考虑以下几点:
数据是格式化的还是非格式化数据?要构建索引的原始数据,类型很多。我把它分为两类,一类是结构化数据,比如MySQL中的数据;另一类是非结构化数据,比如搜索引擎中的网页。对于非结构化数据,我们一般需要做预处理,提取出查询关键词,对关键词构建索引。
数据是静态数据还是动态数据?如果原始是一组静态数据,也就是说,不会有数据的增加、删除、更新操作,所以,我们在构建索引的时候,只需要考虑查询效率就可以了。这样,索引的构建就相对简单些。不过,大部分情况下,我们都是对动态数据构建索引,也就是说,我们不仅要考虑到索引的查询效率,在原始数据更新时,我们还需要动态的更新索引。支持动态数据集合的索引,设计越来相对更复杂些。
索引是存储在内存还是硬盘?如果索引存储在内存中,那技术要求的速度肯定要比存储的磁盘中的高。但是,如果原始数据量很大的情况下,对应的索引可能也会很大。这个时候,因为内存有限,我们可能就不得不将索引存储在硬盘中了。实际上,还有第三种情况,那就是一部分存储在内存,一部分存储在磁盘,这样就可以兼顾内存消耗和查询效率。
单值查找还是区间查找?所谓单值查找,也就是根据查询关键词等于某个值的数据。这种查询需求最常见。所谓区间查找,就是查找关键词处于某个区间值的所有数据。实际上,不同的应用场景,查询的需求会多种多样。
单关键词查找还是多关键词组合查找?比如,搜索引擎中构建的索引,既要支持一个关键词的查找,比如“数据结构”,也要支持组合关键词查找,比如“数据结构 AND算法”。对于单关键词查找,索引构建起来相对简单些。对于多关键词查找来说,要分多种情况。像MySQL这种结构化数据的查询需求,我们可以实现针对多个关键词组合,建立索引;对于像搜索引擎这样的非结构数据的查询需求,我们可以针对间个关键词构建索引,然后通过集合操作,比如求并集、求交集等,计算出多个关键词组合的查询结果。
实际上,不同的场景,不同的原始数据,对于索引的需求也会千差万别。