世行, 事件研究设计的随机推断: 计量经济学沙盒

Original 计量经济圈计量经济圈 2022-05-11

收录于合集 #实证研究中常用计量方法小集子 107个

凡是搞计量经济的，都关注这个号了

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于因果推断，我们引荐了① 关于各种因果识别方法的120份经典实证文献汇总 ”，② 哈佛大学新修订完成的因果推断经典大作免费下载！附数据和code，③因果推断的统计方法总结, 177份文献，④政策评估的计量方法综述, 包括最新因果推断方法，⑤在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献，⑥ 看完顶级期刊文章后, 整理了内生性处理小册子，⑤工具变量精辟解释, 保证你一辈子都忘不了，⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，⑧关于双重差分法DID的32篇精选Articles专辑！⑨关于(模糊)断点回归设计的100篇精选Articles专辑！⑩匹配方法(matching)操作指南, 值得收藏的16篇文章等，⑪MIT广为流传的政策"处理效应"读本，⑫DID的研究动态和政策评估中应用的文献综述，⑬最新政策效应评估的四种方法，⑭政策效应评估的基本问题等。

1.用"因果关系图"来进行因果推断的新技能，2.因果推断专题：因果图，3.因果推断专题：有向无环图DAG，4.confounder与collider啥区别? 混淆 vs 对撞，5.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系，6.中介效应检验流程, 示意图公布, 不再畏惧中介分析，7.图灵奖得主Pearl的因果推断新科学，Book of Why? 8.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑！因果关系研究的图形工具!9.前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处！10.7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学！11.随机分配是什么, 为什么重要, 对因果关系影响几何？12.应用计量经济学现状: 因果推断与政策评估最全综述，13.疫情期计量课程免费开放！面板数据, 因果推断, 时间序列分析与Stata应用，14.Python做因果推断的方法示例, 解读与code，15.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS，16.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

正文

关于下方文字内容，译者：王翠，上海财经大学市场营销，通信邮箱：wangcui_2019@163.com

注：此文翻译自世界银行，具体链接见文后。

所有的局限性引发了每个人对存在主义的大量思考。最近一位朋友问到交错推出的双重差分中的随机推断。这是产生困惑的合理原因，所以是时候对此发布一篇“发展影响”的文章了(还有一个新的闪亮的仪表盘！)。

事件研究设计与随机推断

要回答这个问题，我们首先需要质疑一切。现在很常见的是事件研究，不同的单元在不同的时间受到干预(有些根本没有)，有动态的效果，（当然）也有扁平的预先趋势。这些分析中有哪些是随机的？数据中的哪些变化会产生这些估计值呢？

在最近的文章中，我们分别对事件研究设计中的潜在偏差来源进行了实验，并用随机推断来解释跨国回归中的空间相关性。在这篇文章中，我们将讨论事件研究设计中的随机推断以及对事件研究估计值的解释。

作为计量经济学沙盒的仪表板

为了回答这些问题，我们着手开发一个简单易用的工具，让我们可以在不同的假设下，使用不同的方法对数据生成过程进行试验。我们从模拟数据开始，看看哪些规范在起作用，以及在什么时候和什么假设下失效(例如，什么类型的选择会使我们的估计值产生偏差？)

计量经济学沙盒

事件研究设计与随机推断

模拟事件研究中的随机推断，有纯对照和无纯对照！点击“模拟”生成数据，然后向下滚动查看所有的可视化图像，每次模拟需要几秒钟的时间来推断和生成曲线图。

模拟一下！

为了不需要一系列补充步骤来下载和执行代码就可以共享这些模拟…，我们创建了一个仪表盘！这个仪表板可以做三件事。首先，它允许修改数据生成过程中的参数。其次，它在事件研究中运行了三种简单的随机推断方法：假设干预和干预时机是随机的，假设只有干预时机是随机的，以及删除未被干预的单元。第三，它可视化并比较了每种方法得出的估计值和推论。我们发现这是一种有用的探索工具，可以用来理解事件研究设计中不同的随机推断方法背后的假设以及纯控制的作用。

数据生成过程

一系列滑动条移动数据生成过程的关键组件。这些因素包括接受干预的个体比例、干预的真正效果，以及至关重要的，选择接受干预的模式。前两者以令人惊讶的方式与事件研究中不同的估计和推理方法相互作用。后者是政策所针对的单元的特点，这会严重影响偏差——这些单元有不同的结果水平吗？它们有不同的趋势吗？

为了简化随机推断的分析和未被干预单元在估计中的作用，我们限制案例为存在1)未被干预的控制单元和2)被干预的单元，其中一半被时期0中的政策(随机)确定为目标，而另一半是时期2中的政策(随机)确定为目标。

模型

然后我们对数据运行了以下事件研究模型。设

为单元在时期t内观察到的感兴趣的结果。

为自单元受到干预以来的时期数(对于未被干预的单元，标准化为-1；对于经过4个时期才接受干预的所有单元，分箱为-4；对于干预后超过2个时期的所有单元，分箱为2)。我们估计

与我们先前的文章不同，每个事件研究估计的βτ都不能再概括为单一的双重差分估计值。

样本选择

开始时，我们对全部数据进行分析，包括未被干预的单元、早期干预的单元和未被干预的单元。这些数据中的两组比较，可以估计事件研究系数。首先，将干预单元与未被干预的单元进行比较；这些比较在我们之前文章中讨论过。然而，未被干预的单元与干预单元可能存在系统上的区别，因此这些比较可能会引入偏差。其次，这些比较是在干预单元内部发生的。后一组的比较增加了复杂性：例如，正如我们稍后会讨论的，现在的估计可能对时期段如何分箱很敏感。

接下来，我们允许未被干预的单元和干预单元可以不在平行趋势上，并将未被干预的单元从分析中剔除。直观讲，估计只依赖于干预单元之间的比较；我们将使用仪表板来探索这一点对偏差的影响。

随机推断

为了进行潜在的更稳健的推断，我们使用了随机推断(之前讨论过，包括一些讨论其优秀技术特性的链接)。这通常用于实验：当我们知道干预是随机分配的，那么我们应该使用没有发生的随机分配来估计零效果。由于采样噪声，使用这些反事实随机分配的某些估计值会恰好很大；比我们的实际估计值大的部分给出了与我们的估计相关的p值(我们之前讨论了非实验设置中的随机推断)。

我们首先通过随机分配干预和跨单元的干预时机(“随机干预和干预时机”)来产生安慰剂估计。毫无疑问，我们假设哪些单元从未干预、早期干预和晚期干预是随机的。此外，由于所有的分析都包括单个的固定效应，因此我们可以认为这是针对反事实趋势而假设的随机分配(熟悉的“平行趋势”假设)。这仍然允许未被干预、早期干预和晚期干预的单元得到不同水平的结果(尽管这可能暗示平行趋势假设不太可信)。

接下来，我们通过跨单元随机分配干预时机(“随机化干预时机”)来获得安慰剂估计。现在，我们假设哪些单元被早期干预或晚期干预是随机的，我们允许未被干预的单元可以有系统的差异。如果我们的估计是被干预和未被干预单元之间的比较驱动的，那么这些安慰剂估计值可能不会以0为中心，因此即使干预没有效果，我们的估计器也可能产生一个重要的估计。

可视化，点一下即可！

最后，我们在仪表板中绘制每种方法的估计值。一个人需要做的所有就是点击“模拟！”以创建新的数据模拟，运行事件研究和随机推断，并绘制每种方法下随机推断中的估计系数、标准误差和安慰剂系数的分布。

现在我们来演示…识别和推断的威胁

回到我们最初的动机，我们如何在事件研究中使用随机推断？这需要说明什么是随机的，什么不是随机的，以及这些不同的变异来源如何影响事件研究估计。为了试验这一点，在将政策对初始时期和前期的真实效果设置为0之后，我们使用仪表板来模拟数据——这样，如果在政策没有效果时我们观察到效果，就知道了我们估计的效果实际上是由某些偏差来源造成的。此外，干预和干预时机都随机化的随机推断和仅干预时机随机化的随机推断之间的差异对于这两个变异来源如何影响事件研究估计提供了信息。

我们模拟了四种情况，上图显示了其中两种情况。在我们的基本方案中，我们假设没有干预效果

，没有选项进入干预，一半的单元没有受到干预(P=0.5)。

级别选择：第三，级别上的任何选择都不会产生偏差。

趋势选择：最后，当我们包含了未被干预的个体时，进行趋势干预的选项会使我们的事件研究感到困惑，因为这些个体都有不同的反事实趋向。在这种情况下，在假设干预时机(条件是曾经接受过干预)相对于反事实趋势是随机的情况下，限制被干预的个体消除了这种偏差的来源。

干预单元占比

：首先，在基本情况下，干预分配和干预时机都是随机的，并且我们的模型是正确地确定的，因此两个模型都得到了无偏估计值。然而，当我们包括了未被干预的观察值时，只随机干预时间的随机推断做了一些奇怪的事情：安慰剂估计值不再以0为中心。直观讲，这是因为未被干预的单元也包括在内，当有人改变未被干预单元的占比时，就会出现一些有趣的模式(P)。

关于这个现象有两个注解。首先，这是因为事件研究估计是在不同干预时间的干预单元之间，以及干预的单元和未被干预的单元之间的比较的加权平均。最近的两篇论文(Goodman-Bacon，2019；Sun和Abraham，2020)正式说明了这种分解。因此，由于干预和未被干预单元之间的平均差异，仅随机干预时机的安慰剂估计不是以0为中心。其次，当包括干预单元和未被干预单元之间的比较时，假设干预时机跟随机一样好是不充分的：我们需要平行趋势假设来支持干预单元和未被干预的单元。这突出表明随机推断也可以用作安慰剂检查：如果我们认为平行趋势只在被干预单元中存在，如果我们的估计器只依赖于干预单元之间的比较，那么在干预单元之间的随机化时机应该会产生以0为中心的估计值分布。

最后，值得注意的是，集中在单元水平上的稳健标准误差和随机推断产生的p值相当相似。正如我们在上一篇中所讨论的，只有您关于哪个变量是随机的假设也正确时，随机推断才会产生正确的p值。

干预效果趋势

: 虽然上述两个例子可能表明放弃未被干预的单元总是一个好主意，但事实并非如此。当受干预以来干预效果在时间上呈线性增长时，分箱时间段可能会引入偏差。这是因为分箱隐含地假设干预效果在一定时期内是恒定的。虽然未被干预单元包括在内时，这种分箱不会对估计值产生特别的影响，但当未被干预单元被遗漏时，它会极大地影响估计值，从而导致较大的虚假预趋势的估计。最近的一篇论文强调，这是因为当所有单元最终都被干预时，需要一个以上的参考时期来估计模型。因为我们只使用了一个参考时期，这意味着我们只能估计模型，因为分箱时期超过2并在-4之前。

主要结论：

模拟数据有助于理解您所采用的方法是有效的还是无效的。如文中案例所示，包含未被处理的数据可能引起或消除偏差。正如现在的普遍做法(这里是最近的一个示例)，这两种方法都生效了，并且至关重要的是，绘制原始均值对于展示稳健性是很有价值的。

注：我们的“经济计量沙箱”的所有代码都是在这里留存的！(https://github.com/worldbank/econometrics-sandbox)

https://blogs.worldbank.org/impactevaluations/econometrics-sandbox-randomization-inference-event-study-designs

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

世行, 事件研究设计的随机推断: 计量经济学沙盒

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

世行, 事件研究设计的随机推断: 计量经济学沙盒

您可能也对以下帖子感兴趣