中文摘要数据集汇总
笔者之前开源了一个带有超详细中文注释的GPT2新闻标题生成项目。详细介绍见上一篇文章:超详细中文注释的GPT2新闻标题生成项目。
项目Github链接如下:https://github.com/liucongg/GPT2-NewsTitle。
近期,对该项目进行了更新,从网上收集数据,将清华新闻数据、搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,构建一个较完善的中文摘要数据集(其实很多数据的官方链接都已经失效,笔者也是找了很久数据,问了一些朋友,才要到)。
数据集清洗时,仅进行了简单的规则清洗。例如:清洗htlm标记、去除多余空字符、去除图片标记等。
下面是,各个数据集的基本介绍,数据下载地址见上面的Github。
数据集介绍
1、清华新闻(THUCNews)数据:
清华新闻(THUCNews)数据是清华大学自然语言处理实验室整理,根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:
总数量:830749个样本;
标题:平均字数 19,字数标准差 4,最大字数 48,最小数字 4;
正文:平均字数 892,字数标准差 1012,最大字数 78796,最小数字 31。
2、搜狗新闻(SogouCS)数据:
搜狗新闻(SogouCS)数据是搜狗实验室整理,来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供了URL和正文信息。
利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:
总数量:1245835个样本;
标题:平均字数 17,字数标准差 7,最大字数 40,最小数字 4;
正文:平均字数 494,字数标准差 439,最大字数 2046,最小数字 31。
3、nlpcc2017摘要数据:
nlpcc2017摘要数据是2017年NLPCC比赛Task3任务的数据集。整理后数据信息如下:
总数量:50000个样本;
摘要:平均字数 44,字数标准差 9,最大字数128,最小数字 17;
正文:平均字数 990,字数标准差 1049,最大字数 22312,最小数字 52。
4、中文科学文献csl摘要数据:
计算机领域的论文摘要和标题数据,可用于短文本摘要生成。整理后数据信息如下:
总数量:3500个样本;
标题:平均字数 18,字数标准差 4,最大字数41,最小数字 6;
正文:平均字数 200,字数标准差 63,最大字数 631,最小数字 41。
5、教育培训行业摘要数据:
教育培训行业摘要数据是github作者wonderfulsuccess整理,数据主要由教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)组成。主要是为训练抽象式模型而整理,每条数据有summary(摘要)和text(正文),两个字段,Summary字段均为作者标注。
整理后数据信息如下:
总数量:24423个样本;
摘要:平均字数 52,字数标准差 38,最大字数 255,最小数字 4;
正文:平均字数 2016,字数标准差 1768,最大字数 36058,最小数字 33。
6、lcsts摘要数据:
lcsts摘要数据是哈尔滨工业大学整理,基于新闻媒体在微博上发布的新闻摘要创建了该数据集,每篇短文约100个字符,每篇摘要约20个字符。
整理后数据信息如下:
总数量:2108915个样本;
摘要:平均字数 18,字数标准差 5,最大字数 30,最小数字 4;
正文:平均字数 104,字数标准差 10,最大字数 152,最小数字 69。
7、神策杯2018摘要数据:
神策杯2018摘要数据是“神策杯”2018高校算法大师赛的比赛数据,整理后数据信息如下:
总数量:108089个样本;
摘要:平均字数 24,字数标准差 6,最大字数 72,最小数字 4;
正文:平均字数 1055,字数标准差 979,最大字数 25020,最小数字 31。
8、万方摘要数据:
万方摘要数据是github作者EachenKuang整理,数据是从万方数据库爬取的文献摘要数据。
整理后数据信息如下:
总数量:3590个样本;
摘要:平均字数 30,字数标准差 23,最大字数 171,最小数字 4;
正文:平均字数 295,字数标准差 257,最大字数 2501,最小数字 32。
9、微信公众号摘要数据:
微信公众号摘要数据是github作者nonamestreet整理,从网络抓取的微信公众号的文章。
整理后数据信息如下:
总数量:712826个样本;
标题:平均字数 22,字数标准差 11,最大字数 4984,最小数字 4;
正文:平均字数 1499,字数标准差 1754,最大字数 34665,最小数字 107。
10、微博数据:
数据来源于新浪微博,由He Zhengfang大佬整理,整理后数据信息如下:
总数量:450295个样本;
标题:平均字数 18,字数标准差 5,最大字数 95,最小数字 4;
正文:平均字数 123,字数标准差 30,最大字数 1873,最小数字 100。
11、news2016zh新闻数据:
news2016zh新闻数据是 CLUEbenchmark整理,包含了250万篇新闻。新闻来源涵盖了6.3万个媒体。
整理后数据信息如下:
总数量:2317427个样本;
标题:平均字数 20,字数标准差 6,最大字数 196,最小数字 4;
正文:平均字数 1250,字数标准差 1735,最大字数 356749,最小数字 31。
总结
笔者整理不易,认为有帮助的同学可以star一下Github,关注我一波~~~
公众号开的晚,没有留言功能;欢迎大家加我微信,有问题可以私聊我。