查看原文
其他

另类!这项目没有一行代码,30k star 和 近40w的内容收录,登顶GitHub热榜

Huber Github中文社区 2020-10-08
点击上方“Github中文社区”,关注

看遍Github好玩的项目


第015期原创分享 作者:huber


大家好,我是hub妹,咱们又见面了!


最近看到小侄女整天抱着pad背诵古诗词,让我想起了自己曾经背诵诗词的苦逼时代,那时候没pad,  都是抱着课本啃,背不完当天任务就不让回家,现在想起来都有阴影……





那么问题来了:她们pad里的古诗词,数据都是哪来的?APP厂家自己收集的?还是有公共数据资源?  好奇之下网上查了一下,居然发现了GitHub上有这么个让人鸡冻的项目 : chinese-poetry



这可真是一个情怀项目啊,来自几十位贡献者,搜集出了最全的中华古典文集数据库,包含5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近1.4 万古诗人,和两宋时期 1.5 千古词人。数据基本都是来源于互联网。





而且目前已经收获 Star 近 30k !



这么受欢迎的数据,把诗人们都给激动坏了:






为什么要做这个仓库?


据官方简介:古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。



词频分析


项目对数据库做了一个初步的词频分析,不过用现代技术去分析古诗词,总感觉怪怪的呢?😂  这里列举部分词频分析图:



宋词受欢迎的词牌名:



宋词高频词:



宋词作者榜:




唐诗高频词:




唐诗作者榜




已含数据集



每一个集合可直接点击进入子集,比如我点击诗经后,进入了诗经的子集页面,有进一步介绍:



诗经


中国最早诗歌总集, 《诗经》,是中国古代诗歌开端,最早的一部诗歌总集,收集了西周初年至春秋中叶(前11世纪至前6世纪)的诗歌,共311篇,其中6篇为笙诗,即只有标题,没有内容,称为笙诗六篇(南陔、白华、华黍、由康、崇伍、由仪),反映了周初至周晚期约五百年间的社会面貌。来自百科



数据格式

shijing.json

[

  {

    "title": "关雎",

    "chapter": "国风",

    "section": "周南",

    "content": [

      "关关雎鸠,在河之洲。窈窕淑女,君子好逑。",

      "参差荇菜,左右流之。窈窕淑女,寤寐求之。",

      "求之不得,寤寐思服。悠哉悠哉,辗转反侧。",

      "参差荇菜,左右采之。窈窕淑女,琴瑟友之。",

      "参差荇菜,左右芼之。窈窕淑女,钟鼓乐之。"

    ]

  }





应用案例


项目还提供了数个应用案例:



咱们就点第一个案例看一下效果:





关于贡献


目前已经聚集了近30位贡献者



贡献的方式也很简单,可用自己的方式将采取到的古诗词以JSON格式按照项目官方标准提交即可



传送门

https://github.com/chinese-poetry/chinese-poetry



写在最后


中文诗词,之所以让人们从古至今都在学习,是因为那都是古人们思想与智慧的结晶,大家来随便欣赏几句李白被网友们评为最狂的诗句:


十步杀一人,千里不留行。

事了拂衣去,深藏身与名。

    ——《侠客行》


仰天大笑出门去,我辈岂是蓬蒿人。

——《南陵别儿童入京》


兴酣落笔摇五岳,诗成笑傲凌沧洲。

——《江上吟》



这个项目是一个典型的,拿GitHub当公共数据库使用的项目😂😂,这种方式简单并且方便维护,贡献者直接上传json文件就行,应用端对数据获取也很方便直接,开发者们能如此快捷的使用这些数据,都要归功于这些无私的贡献者们


大家请起立,为贡献者们鼓掌






OK!到这就是这期分享

如果觉得文章有意思,请点赞在看,分享。


历史原创


 卧槽!红色警戒游戏源代码被开源了! 毫无破绽!用这个开源项目换了张脸后,连女朋友都难分真假,能否骗过刷脸支付? 强!这个GitHub官方终端命令行工具!星标10K!真是让人相见恨晚啊 当年锤子的大爆炸,如今12个语言版本都可轻松搞定!


点个在看呗!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存