查看原文
其他

输出描述性统计结果

爬虫俱乐部 Stata and Python数据分析 2022-03-15

者:张    宇

:杨长青

:司海涛

重大通知!!!2019年6月22日至24日在河南郑州举行Stata编程技术特别训练营,招生工作已经圆满结束。另外爬虫俱乐部将于2019年7月5日至7月8日在武汉举行首期Python编程技术定制培训,仍在火热招生中,点击文章末尾查看原文,查看培训详细信息。


描述性统计可以帮助我们很直观地了解数据的结构,让我们对数据有一个宏观的认识。stata输出描述性统计结果,首推爬虫俱乐部出品的sum2docx命令,这个命令帮助我们将描述性统计结果输出到word中,它的用法在推文《命令更新之sum2docx:将描述性统计输出至Word文档》中已详细介绍。今天,小编要介绍的是另一个可以把描述性统计结果输出到word或excel中的一个命令——summtab。

summtab是外部命令,需使用ssc install summtab, replace安装。

summtab的语法结构:

summtab [if] [in],cont_vars(varlist) cat_vars(varlist) [by(varname) {other options}]

其中,cont_vars(varlist)是将其中的变量作为连续型变量进行描述统计;cat_vars(varlist)将其中的变量作为分类变量,列示变量的每一个取值和其所占的比例;by(varname)则是根据其中的变量分组进行描述统计,如果不指定,则根据全部数据进行描述统计。还有一些其他的常用选项:

total:可以和by()选项一同使用,在分组进行描述统计的同时显示全部数据的描述统计。

mean:输出变量的均值和标准差。

median:输出变量的中位数和上、下四分位数。

range:输出变量的极值。

directory(string):指定输出文件保存的路径,如不指定,则默认为当前路径。

title(string):设定输出的表格名称,默认是“Table 1”。如果输出的文件是word,则此选项有效;如果是excel,则此选项无效。

word:指定输出的文件为word。

excel:指定输出的文件为excel,excel和word必须指定其一,也可同时指定,输出两个文件。

wordname(string):设置输出的word文件名,默认文件名为“table1”,必须指定选项word此选项才生效。

excelname(string):设置输出的excel文件名,默认文件名为“table1”,必须指定选项excel此选项才生效。

landscape:将输出的word纸张方向由纵向改为横向。

下面我们以auto数据为例,来说明这个命令的具体用法:

clear cap mkdir d:/描述统计结果sysuse auto, clearsummtab, cont_vars(price mpg weight length foreign) /// mean median range title(My Table 1) /// word wordname(summary_table) replace /// directory("d:/描述统计结果")

在上述程序中,我们将所有的变量都放在cont_vars()选项中,因此这些变量都被当作连续变量;同时,我们指定了一些描述性统计的计算结果:均值、标准差、中位数、极值等;我们还设置了输出的文件为word,设置了文件名、表格名和文件要保存到的路径。

 结果如下:

在指定路径下就出现了包含描述性统计结果的word文件。

此时我们的描述性统计结果就已经输出来了。但是我们知道,auto数据集中的变量foreign(Car type)是一个分类变量,因此我们将此变量放在cat_vars()选项中。程序如下:

summtab, cont_vars(price mpg weight length) cat_vars(foreign) /// mean median range title(My Table 1) /// word wordname(summary_table1) excel excelname(summary_table1) replace ///         directory("d:/描述统计结果")

此时,我们同时将描述性统计结果输出到word和excel中。

在指定路径下就出现了我们生成的两个文件:

上图是word中的结果。可以看到,当我们把分类变量放在cat_vars()选项中时,结果中就汇报出变量每一个取值的频数和频率。

上图是excel中的描述性统计表。可以看到,excel中除了不显示title,其余结果和word中都是相同的。

当然,我们还可以根据by()选项分组进行描述性统计,并指定total选项汇报全部数据的描述性统计:

summtab, cont_vars(price mpg weight length) cat_vars(foreign) /// mean median range title(My Table 1) /// word wordname(summary_table2) replace /// directory("d:/描述统计结果") /// by(foreign) total landscape

我们添加了landscape选项将word纸张方向设置成了横向,结果如下:

以上就是我们今天介绍的summtab命令,希望对大家有所帮助!

对爬虫俱乐部的推文累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫!

往期推文推荐

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:statatraining@163.com

投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存