查看原文
其他

回归控制法HCW的优势和实现数据,codes, 面板数据政策评估方法的新宠!

计量经济圈 计量经济圈 2022-12-13

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于HCW方法,参看:1.HCW面板数据政策评估方法, panel数据构造对照组,2.合成控制法与HCW方法, 谁能够走得更远?3.用回归控制法HCW(附程序和数据)评估各国经济刺激计划的影响, 真是一个好主意!4.计量院士为你讲解回归控制法HCW的操作, 并配上自己写的一篇范文!

正文

社会科学家长期以来一直使用项目评估方法衡量不同经济或政治干预(处理)的效果。问题是不能同时观察到干预和没有干预的结果,因此需要应用到主流的项目评估方法。传统上,比较案例研究一直是研究人员的首选方法,可以将受处理或受事件影响的单元(称为处理组)与不受该政策影响的一个或多个单元(对照组)进行比较。这个想法是使用对照组的结果来获得处理组如果不接受政策处理的结果的近似值。
近年来,合成控制法(Abadie 和 Gardeazabal,2003 年;Abadie 等,2010 年)通过引入用于选择控制组的数据驱动程序解决了这些问题。然而,合成控制方法并非没有缺点:由于合成控制是作为donor pool中单元的凸组合计算的,因此它不允许外推,可能不存在适合我们处理单元的合成控制组。此外,合成控制旨在与有助于解释结果变量方差的解释变量或协变量一起使用。对于研究人员发现需要外推以获得受政策处理单元的情况,或者当可用的协变量不能正确解释旨在测量处理效应的结果时,他或她可能更喜欢使用 Hsiao 等(2012)的面板数据方法进行项目评估。用于构建受干预单元的反事实的面板数据方法,是使用其他不受处理的单元来预测如果受处理单元没有受到政策干预会发生什么。这种方法背后的基本思想是依靠横截面单位之间的相关性。他们将横截面依赖性归因于驱动所有相关横截面单位的共同因素的存在(所谓的common factors)。

R中的程序是pampe

因此,本文的目的是介绍实现 R 中政策评估的面板数据方法包 pampe,该包获取网址为http://CRAN.R-project.org/package=pampe。包中的主要函数是 pampe(),它使用 Hsiao 等(2012)概述的建模策略计算受政策处理单元的反事实结果。该函数包括获得安慰剂检验的选项。还有一个额外的函数robustness(),它对结果进行了留一法( leave-one-out)的稳健性检验。数据示例也来自 Hsiao 等 (2012)引入的面板数据方法,以研究香港与中国大陆的政治和经济一体化的影响,使用地理和经济上接近香港的其他国家作为可能的控制单元。
对该程序的详细介绍及示例,请参看如下链接:
https://journal.r-project.org/archive/2015/RJ-2015-024/RJ-2015-024.pdf

Stata中的程序是rcm

rcm 有效地实现了回归控制方法 (RCM),也就是用于项目评估的面板数据方法 (Hsiao et al., 2012),它利用横截面相关性通过线性回归 (OLS)、套索(Lasso)或套索后(post-Lasso)OLS构建政策处理单元的反事实结果。为什么截面存在相关性呢?rcm方法认为经济中存在一些不可观测的 “共同因子(common factors)” 影响个体,使得不同个体之间存在截面相关性。
rcm模型选择方法包括最优子集、套索、前向逐步回归和后向逐步回归,而选择标准包括 AICc、AIC、BIC、MBIC 和 CV(交叉验证)。正如 Hsiao 和 Zhou (2019) 所提出的,协变量(indepvars)被允许进一步改进反事实预测。rcm程序会生成一系列图形,以便在此过程中进行可视化。对于统计推断,可以实施使用虚假处理单元的空间安慰剂检验和使用虚假处理时间的即时安慰剂检验。有关 rcm 使用的详细介绍,可以参考 Yan and Chen (2021)。

所需设置
rcm 在执行前自动将面板数据集从长形转换为宽形,其中处理单元的 depvar 转换为响应变量,控制单元的depvar转换为预测变量。如果指定了 indepvars,则在此过程中将所有单元的 indepvars 转换为预测变量。
trunit(#) 指定面板数据中给定的处理单元(即受政策干预的单元)的单元号(一个数字)。请注意,只能指定一个单元号。
trperoid(#) 政策干预发生的时间段。时间段是指在 xtset timevar 中指定的时间变量,并且必须是整数。请注意,只能指定一个时间段。

模型选择由 rcm 自动执行的两个步骤组成。
第 1 步:选择次优模型。
rcm 选择一系列次优模型,每个模型都包含一个唯一的预测变量子集。选择次优模型的确切过程取决于 method(sel_method) 指定的选择方法。可用的选择方法包括最优子集、套索、前向逐步回归和后向逐步回归。
第 2 步:从次优模型中选择最优模型。
允许的模型选择标准包括 aicc、aic、bic、mbic 和 cv(仅适用于套索方法)。默认情况下,在选择最优模型时对预测变量的数量没有限制,但是可以通过 scope() 指定允许的预测变量数量来限制其范围。
模型选择后,rcm 使用最优模型进行反事实预测和估计处理效应。estimate(est_method) 指定用于估计最优模型的方法,允许的选择标准包括ols(如OLS或套索后OLS)和套索(直接使用lasso进行预测)。

安慰剂检验
安慰剂placebo([unit unit(numlist) period(numlist) cutoff(#_c)]) 指定要执行的安慰剂检验的类型;否则,将不进行安慰剂检验。unit 和 unit(numlist) 指定使用donor pool中的虚假处理单元的安慰剂检验,其中 unit 使用所有虚假处理单元, unit(numlist)则 使用由 numlist 指定的虚假处理单元列表。这两个选项迭代地将政策处理分配给实际未受政策影响的控制单元,并计算处理效应的p值。请注意,只能指定 unit 和 unit(numlist) 之一。
period(numlist) 指定使用虚假处理时间的安慰剂检验。此选项将政策处理分配到政策干预之前的时间段,此时实际上没有受到政策影响。

*完整版code放在计量社群里的,可以自行下载运行。
示例 1:估计 1997 年第三季度香港与中国内地政治一体化的影响(Hsiao 等,2012)
. use growth, clear
. xtset region time


显示香港单元编号及政策处理时期
. label list
. display tq(1997q3)
. display tq(2003q4)
使用指定的控制单位和指定的后处理时期期,复现出Hsiao 等人 (2012) 中的结果
. rcm gdp, trunit(9) trperiod(150) ctrlunit(4 10 12 13 14 19 20 22 23 25) postperiod(150/175)


处理组和控制组情况如下:


处理效应如下:

使用带有LOOCV 和所有控制单元的后套索 OLS,并创建一个 Stata 框架“growth_wide”,以广泛的形式存储生成的变量,包括反事实预测、处理效应和安慰剂检验的结果
. rcm gdp, trunit(9) trperiod(150) postperiod(150/175) method(lasso) criterion(cv) frame(growth_wide)
更改为生成的 Stata 框架“growth_wide”
. frame change growth_wide
改回默认的Stata框架
. frame change default
使用donor pool中的所有虚假处理单元实施安慰剂检验
. rcm gdp, trunit(9) trperiod(150) postperiod(150/175) method(lasso) criterion(cv) placebo(unit)



示例 2:估计 2004 年第一季度香港与 中国大陆经济一体化的影响(Hsiao 等,2012)
. use growth, clear
. xtset region time
显示香港单元的编号及政策处理期
. label list
. display tq(2004q1)
使用所有控制单元复现 Hsiao 等人 (2012) 中的结果
. rcm gdp, trunit(9) trperiod(176) method(best)
使用带有 LOOCV 的 post-lasso OLS,并创建一个 Stata 框架“growth_wide”,以宽格式存储生成的变量
. rcm gdp, trunit(9) trperiod(176) method(lasso) criterion(cv) frame(growth_wide)
使用donor pool中的所有虚假处理单元实施安慰剂检验,虚假处理时间 2002q1
. display tq(2002q1) . rcm gdp, trunit(9) trperiod(176) method(lasso) criterion(cv) placebo(unit period(168))

示例 3:估计 1990 年德国统一的影响 (Abadie et al ., 2015)
. use repgermany.dta, clear
. xtset country year
显示西德的单元号
. label list
使用无协变量的 10 倍交叉验证后套索 OLS
. rcm gdp, tru(17) trp(1990) me(lasso) cr(cv) fold(10)
使用三个协变量作为附加的预测变量
. rcm gdp infrate trade industry, tru(17) trp(1990) me(lasso) cr(cv) fold(10)
Fill in missing values by sample means for each units, and implement placebo tests using the fake treatment units with pre-treatment MSPE 10 times smaller than or equal to that of the treated unit
对每个单元按样本均值填充缺失值,并使用处理前MSPE小于或等于处理单元10倍的虚假处理单元进行安慰剂检验
. rcm gdp infrate trade industry, tru(17) trp(1990) me(lasso) cr(cv) fold(10) fill(mean) placebo(unit cut(10))
对每个单元按样本均值填充缺失值,并实施虚假处理时间的安慰剂检验
. rcm gdp infrate trade industry, tru(17) trp(1990) me(lasso) cr(cv) fold(10) fill(mean) placebo(period(1980))
通过线性插值对每个单元填充缺失值,并创建一个Stata框架“WestGermany_wide”,以宽格式存储生成的变量
. rcm gdp infrate trade industry, tru(17) trp(1990) me(lasso) cr(cv) fold(10) fill(linear) frame(WestGermany_wide)

*完整版code放在计量社群里的,可以自行下载运行。

1.免费4门课程, 因果推断1和2, IV, 份额移动IV,2.哈佛“数据科学导论”课程对所有人免费开放!包括机器学习和回归分析等各种方法!3.加拿大经济学会主席的"机器学习"课程可以学习了! 共计20份Slides直指ML前沿!4.耶鲁开设“应用实证方法”P.hd课程, 强逻辑, 好文献, 重实操, 真前沿, 送slides和笔记!5.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程,6.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献,7.美国博士用4年整理了写论文的各章实用资料, 包括课程, 软件, 研究, 投稿和工作等,8.MIT经济系50门开放课程对中国学者开放, 包括计量经济学等各类经济学课程!9.MIT斯隆商学院研究生课程对国内免费开放, 在家就能学习世界一流商学院的课程!10.从入门到进阶的Python数据分析手册, 课程内容完全免费!11.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应

关于合成控制法,参看:1.分享一篇使用合成控制法SCM进行实证研究的文章的代码,2.用合成控制法, 机器学习和面板数据模型开展政策评估的论文!3.中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少需要收藏一下!4.合成控制法创始人如何用SCM做实证呢?这些规定动作一个都不能少!5.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 6.关于合成控制法SCM的33篇精选Articles专辑!小组惊动了阿里巴巴!7.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,8.合成控制法SCM新进展, 直接通过代码演示, 附数据和code!

关于因果推断书籍:①哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!图灵奖得主Pearl的因果推断新科学, Why?计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用(慕课上有不少免费课程,建议年轻学者好好使用),④你应该阅读哪本因果推断书籍: 一份进阶流程图和简短书评列表


下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存