中文摘要数据集汇总

Original 刘聪NLP NLP工作站 2023-11-28

收录于合集

笔者之前开源了一个带有超详细中文注释的GPT2新闻标题生成项目。详细介绍见上一篇文章：超详细中文注释的GPT2新闻标题生成项目。

项目Github链接如下：https://github.com/liucongg/GPT2-NewsTitle。

近期，对该项目进行了更新，从网上收集数据，将清华新闻数据、搜狗新闻数据等新闻数据集，以及开源的一些摘要数据进行整理清洗，构建一个较完善的中文摘要数据集（其实很多数据的官方链接都已经失效，笔者也是找了很久数据，问了一些朋友，才要到）。

数据集清洗时，仅进行了简单的规则清洗。例如：清洗htlm标记、去除多余空字符、去除图片标记等。

下面是，各个数据集的基本介绍，数据下载地址见上面的Github。

数据集介绍

1、清华新闻（THUCNews）数据：

清华新闻（THUCNews）数据是清华大学自然语言处理实验室整理，根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

利用其正文与标题，可以构成新闻标题生成数据。整理后数据信息如下：

总数量：830749个样本；

标题：平均字数 19，字数标准差 4，最大字数 48，最小数字 4；

正文：平均字数 892，字数标准差 1012，最大字数 78796，最小数字 31。

2、搜狗新闻（SogouCS）数据：

搜狗新闻（SogouCS）数据是搜狗实验室整理，来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供了URL和正文信息。

利用其正文与标题，可以构成新闻标题生成数据。整理后数据信息如下：

总数量：1245835个样本；

标题：平均字数 17，字数标准差 7，最大字数 40，最小数字 4；

正文：平均字数 494，字数标准差 439，最大字数 2046，最小数字 31。

3、nlpcc2017摘要数据：

nlpcc2017摘要数据是2017年NLPCC比赛Task3任务的数据集。整理后数据信息如下：

总数量：50000个样本；

摘要：平均字数 44，字数标准差 9，最大字数128，最小数字 17；

正文：平均字数 990，字数标准差 1049，最大字数 22312，最小数字 52。

4、中文科学文献csl摘要数据：

计算机领域的论文摘要和标题数据，可用于短文本摘要生成。整理后数据信息如下：

总数量：3500个样本；

标题：平均字数 18，字数标准差 4，最大字数41，最小数字 6；

正文：平均字数 200，字数标准差 63，最大字数 631，最小数字 41。

5、教育培训行业摘要数据：

教育培训行业摘要数据是github作者wonderfulsuccess整理，数据主要由教育培训行业主流垂直媒体的历史文章（截止到2018年6月5日）组成。主要是为训练抽象式模型而整理，每条数据有summary(摘要)和text(正文)，两个字段，Summary字段均为作者标注。

整理后数据信息如下：

总数量：24423个样本；

摘要：平均字数 52，字数标准差 38，最大字数 255，最小数字 4；

正文：平均字数 2016，字数标准差 1768，最大字数 36058，最小数字 33。

6、lcsts摘要数据：

lcsts摘要数据是哈尔滨工业大学整理，基于新闻媒体在微博上发布的新闻摘要创建了该数据集，每篇短文约100个字符，每篇摘要约20个字符。

整理后数据信息如下：

总数量：2108915个样本；

摘要：平均字数 18，字数标准差 5，最大字数 30，最小数字 4；

正文：平均字数 104，字数标准差 10，最大字数 152，最小数字 69。

7、神策杯2018摘要数据：

神策杯2018摘要数据是“神策杯”2018高校算法大师赛的比赛数据，整理后数据信息如下：

总数量：108089个样本；

摘要：平均字数 24，字数标准差 6，最大字数 72，最小数字 4；

正文：平均字数 1055，字数标准差 979，最大字数 25020，最小数字 31。

8、万方摘要数据：

万方摘要数据是github作者EachenKuang整理，数据是从万方数据库爬取的文献摘要数据。

整理后数据信息如下：

总数量：3590个样本；

摘要：平均字数 30，字数标准差 23，最大字数 171，最小数字 4；

正文：平均字数 295，字数标准差 257，最大字数 2501，最小数字 32。

9、微信公众号摘要数据：

微信公众号摘要数据是github作者nonamestreet整理，从网络抓取的微信公众号的文章。

整理后数据信息如下：

总数量：712826个样本；

标题：平均字数 22，字数标准差 11，最大字数 4984，最小数字 4；

正文：平均字数 1499，字数标准差 1754，最大字数 34665，最小数字 107。

10、微博数据：

数据来源于新浪微博，由He Zhengfang大佬整理，整理后数据信息如下：

总数量：450295个样本；

标题：平均字数 18，字数标准差 5，最大字数 95，最小数字 4；

正文：平均字数 123，字数标准差 30，最大字数 1873，最小数字 100。

11、news2016zh新闻数据：

news2016zh新闻数据是 CLUEbenchmark整理，包含了250万篇新闻。新闻来源涵盖了6.3万个媒体。

整理后数据信息如下：

总数量：2317427个样本；

标题：平均字数 20，字数标准差 6，最大字数 196，最小数字 4；

正文：平均字数 1250，字数标准差 1735，最大字数 356749，最小数字 31。

总结

笔者整理不易，认为有帮助的同学可以star一下Github，关注我一波~~~

公众号开的晚，没有留言功能；欢迎大家加我微信，有问题可以私聊我。

继续滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

中文摘要数据集汇总

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

中文摘要数据集汇总

您可能也对以下帖子感兴趣