查看原文
其他

​我们应该在多大程度上信任交叠/渐进/多期双重差分估计?

计量经济圈 计量经济圈 2023-03-29

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

今天,推荐一篇TOP刊JFE上的文章《我们应该在多大程度上信任交叠/渐进/多期双重差分估计?》。为什么需要好好研读一下这篇质疑性文章呢?在于现在DID方法当道,记得社群群友说一中文期刊整期全是DID方法做的实证研究,即全部是自然实验或准自然实验的证据。这个DID方法确实开始走向巅峰了(fan lan le),表现在,不管是不是自然实验或准自然实验,反正只要是政府颁布的政策就设法套一下DID模板。

正文

关于下方文字内容,作者:马莹,西南财经大学金融学院,通信邮箱:mochen@smail.swufe.edu.cn

作者之前的文章:站稳2900, TOP刊推出“中国金融市场发展及现状系统回顾”万字雄文!
Andrew C. Baker, David F.Larcker, Charles C.Y.Wang. (2022).How much should we trust staggered difference-in-differences estimates?, Journal of Financial Economics.
We explain when and how staggered difference-in-differences regression estimators, commonly applied to assess the impact of policy changes, are biased. These biases are likely to be relevant for a large portion of research settings in finance, accounting, and law that rely on staggered treatment timing, and can result in Type-I and Type-II errors. We summarize three alternative estimators developed in the econometrics and applied literature for addressing these biases, including their differences and tradeoffs. We apply these estimators to re-examine prior published results and show, in many cases, the alternative causal estimates or inferences differ substantially from prior papers.
我们应该在多大程度上信任交叠/渐进/多期双重差分估计?
目录

1 Abstract

文中解释了通常用于评估政策变化影响的DID回归估计何时以及如何有偏差。这些偏差可能与金融、会计和法律中依赖交错处理时间的大部分研究环境有关,并可能导致第一类和第二类错误。并总结了在计量经济学和应用文献中发展起来的三种替代估计方法,以解决这些偏差,包括它们的差异和权衡。作者应用这些估计量来重新检查先前发表的结果,并在许多情况下表明,替代的因果估计或推论与先前的论文有很大的不同。

2 Introduction

政策效果的估计是实证金融、会计和法律研究的核心。“双重差分法”(DiD)是这些领域进行因果推断的主要估计方法,也是过去30年“可信度革命”的核心。它通常利用法律或市场规则的通过(政策冲击),影响一组企业或市场参与者(处理组),但不影响其他企业或市场参与者(控制组),并比较处理组和控制组在一段时间内的结果差异,以推断因果效应。

在过去的二十年里,“双重差分法”(DiD)变得特别流行。表1显示,从2000年到2019年,在排名前五的金融(431篇)或会计(313篇)杂志上发表了744篇使用DiD设计的论文。其中,407篇(总体和两个领域各占55%)使用了交错DiD设计,这407篇中有394篇(97%)是2010年以来发表的。

交错DID的普遍使用反映了研究人员的一个共同信念,即这种设计更稳健,并减轻了对同期趋势可能混淆感兴趣的处理效应的担忧。然而,计量经济学理论的最新进展表明,即使在随机分配处理组的情况下,错开处理时间的标准DID回归估计往往不能提供研究人员感兴趣的因果关系的有效估计--例如对被处理组的平均处理效应(ATT)。本文解释了这些理论问题背后的直觉,它们何时、如何产生,以及它们如何能够导致不正确的推论。本文还总结了计量经济学或应用文献提出的三种解决方案,供金融实证研究人员规避问题。
本文首先概述了计量经济学的最新工作,解释了为什么交错DiD设计的静态处理效应估计值不容易解释ATT。一般来说,这些通过双向固定效应(TWFE)的DiD回归得到的估计值,是许多不同的“2×2”DiD的方差加权平均数,每一个都涉及到在处理组接受处理之前和之后的一个窗口中处理组和有效控制组之间的比较。在一些 “2×2”中,已经接受过处理的集合可以作为有效的比较单位,其结果变化可能反映了后来接受处理的集合的变化中减去的处理效应。换句话说,这些回归引入了一个“糟糕的比较”问题,它与违反平行趋势假设不同,但也有类似的问题。当处理效应可以随时间变化时(“动态处理效应”),交错的DiD处理效应估计值实际上可以得到与真实ATT相反的符号,即使研究者能够随机分配处理(因此平行趋势假设成立)。这些理论结果对应用研究人员具有深远的意义。
本文模拟Computat的合成数据集,以模仿应用公司财务研究中的标准交错DiD设计:利用州级法律的交错变化,使用多年测量的资产回报率(ROA)来衡量的公司面板。模拟产生了三个主要的观点。首先,在单一处理期的环境中,DID估计是无偏见的,即使存在动态处理效应。其次,在处理分配时间交错、不同公司和不同时间的处理效应相同的情况下,DiD估计值也是无偏的。最后,当研究设置结合处理效应的交错时间和处理效应的异质性时,交错的DID估计可能有偏差。特别是,交错的处理时机和动态处理效应的结合,突出了TWFE静态效果估计中“糟糕的比较”问题的存在和作用,这可能导致带有错误符号的显著估计。
此外,静态交错的DiD估计所产生的偏差并不能通过实施事件研究估计的方法来解决。研究人员通常会对允许动态处理效应的广义TWFE DiD回归进行估计。然而,最近的工作表明,这种事件研究估计值的动态效果估计也有问题。在存在交错的处理时间和处理效应异质性的情况下,一个相对时间段的TWFE动态效果估计值会受到估计样本中其他相对时间段的因果影响的干扰。
这些偏差很可能适用于涉及交错处理分配和TWFE做回归的大部分研究环境,因为作者相信动态处理效应是许多经济环境中最合理的默认假设。作者还演示了为什么这些偏差会导致I型和II型错误。也就是说,研究人员可能会得出结论,处理效应存在,处理前趋势与对照结果差异不存在(与平行趋势假设一致),而相反的情况是正确的。研究人员还可能得出结论,处理效应不存在,或者处理前趋势存在,而事实恰恰相反。
接下来,作者总结了在计量经济学或应用文献中开发的三种替代估计量,研究人员可以在处理时间交错的环境中应用。虽然文献没有确定一个标准,但所提出的解决方案都通过修改处理效应估计过程中的有效比较数据集来处理TWFE DID回归中固有的“不良比较”问题所产生的偏差。例如,每一种替代估计都确保接受处理的公司与以前接受处理的公司不进行比较。然而,不同的方法在哪种观测作为有效的混合单位和如何合并协变量。
最后,本文通过检查过去十年中发表在顶级金融期刊上的论文来证明这些问题是如何影响应用研究的。作者复现和扩展了两篇论文的发现,这两篇论文在不同的环境中应用了交错的DID设计:从银行放松管制(Beck et al.,2010)到全球董事会治理改革(Fauver et al.,2017)。在每一篇论文中,作者发现已发表的交错DID估计容易受到来自处理效应异质性的偏差的影响。在复制这些论文时,作者还演示了在实现交错TWFE DID回归时常见模型设定选择的影响。

3. A review of the DiD method

3.1. Basic 2 × 2 design and validity of DiD as causal estimate

DID设计是应用经济学研究中确定因果效应最常用的方法之一。在其最简单的形式中,DID设计包括一个单一的处理,两个离散的时期(处理前和处理后)和两个组:接受(“处理”)和不接受(“控制”)处理的单元。在这个“2×2”设计中,通过比较处理集合的平均结果变化与对照集合的平均结果变化,以实证的方式估计处理对有关结果的影响。
潜在结果框架说明了为什么以及何时这种实证估计是有效的。如果单位接受处理,则将Yi,t (1)表示为单位i在时间t的相关结果值,如果单位i没有接受处理,则将Yi,t (0)表示为单位i在时间t的相关结果值。对被处理者的平均处理效应(ATT)通常是研究人员感兴趣的因果估计和有待估计的数量。它被定义为接受处理的单位之间的均值差Yi,t (1) - Yi,t (0)。

如何确定ATT带来的挑战源于一个基本的数据缺失问题:对于任何给定的单位,研究者只能观察到一个(而不是两个)潜在的结果。DiD设计通过使用控制单位的结果隐含地估算出处理单位的反事实结果来解决这一挑战。这种方法的有效性取决于一个核心假设,“平行趋势”。假设ATT=δ,并将D表示为一个指标变量,当单位i接受处理时,评价为1,否则为0,得到:

第一个等式确定了感兴趣的估计值,但不能在数据中直接估计。第二个等式来自于加减Yi,0 (0),并假设没有预期的处理,因此Yi,0 (0) = Yi,0 (1)。第二个等式,特别是第二项,也不能在数据中直接估计,因为对于接受处理的单位来说,Yi,t (0) - Yi,t (0)是不可观察的。最后一个等式来自平行趋势假设,即E [(Y i, 1 (0) -Y i, 0 (0)) | D i = 1] = E [Y i, 1 (0) -Y i, 0 (0) | D i = 0]并且可以在数据中估计。在控制单位的结果趋势没有捕捉到处理公司的反事实结果趋势的情况下,DiD的估计会有偏差。

3.2. Use of regressions in implementing DiD

研究人员通常通过普通线性回归(OLS)获得DID估计值。例如,简单的2×2情况下的ATT可以作为交乘项(β3)上的斜率系数,由以下回归得到:

其中Di是被处理单位的指示变量,POSTt是周期t=1中观测的指示变量,Dit表示交乘项。

基于回归的DID的一个优点是它既提供了δ的点估计值,又提供了δ的标准误差。另一个被认为存在的优势是,它可以适应更普遍的DID设置,因为它“很容易向回归设置添加额外的状态或周期……[而且]很容易添加额外的协变量”。

在超过两个单位和两个时间段的设置中,回归DID模型通常采用以下双向固定效应(TWFE)形式:

其中是单位和时间段的固定效应,它包含了DiPOSTt的主效应。研究人员通常会修改这个TWFE模型,以包括协变量、时间趋势和动态处理效应估计。值得注意的是,研究人员在处理时间交错的情况下应用TWFE模型来估计δ。

4. TWFE under staggered treatment timing: The problems

最近在计量经济学理论方面的工作对TWFE DID估计量被应用于处理时间变化的环境时的估计值的有效性提出了质疑。当使用这种交错的DID估计值来产生静态或动态处理效应估计时,可能会产生显著的偏差。

4.1. Static staggered DiD estimates

第二,更重要的是当处理效应是“动态的”时,交错的DiD TWFE估计值将与样本平均ATT不同。也就是说,处理效应不是一个恒定的加法效果,而是一个自处理以来经过的时间的函数。公式(4)表明,时变的处理效应会在静态的TWFE DiD估计中产生偏差,因为ATT = 0。
4.1.1. Simulations using compustat data

此部分作者执行了一个蒙特卡罗模型,其中数据生成过程源于计算数据的经验分布,重点是资产收益率(ROA)作为盈利的结果。对处于被处理的企业引入不同的处理效应,然后检验得到的TWFE DID估计的性质。选择1980年至2015年36年期间的所有Computstat非金融公司的样本, 使用由176,670个观察数据组成的非平衡面板,计算ROA,并将其分解为年度固定效应、公司固定效应和残差:

分别从经验分布中抽取年度固定效应、公司固定效应和ROA残差。并随机抽出每个公司的注册地,对每个注册地赋予1/50的概率。然后,以相同的概率将各州随机分配到处理组和控制组(在下面的模拟1和模拟2中)或不同的处理—时间组(在模拟3-6中)。接下来,对ROA的数据生成过程引入六种不同的处理效应:
这些模拟表明,交错的处理时间和处理效应的异质性的结合,无论是在组间还是在时间上,都会导致对样本平均ATT的TWFE DiD估计有偏差。这种偏差可能非常严重,以至于改变研究者对处理效应方向的推断。
4.1.2. Intuition via Goodman-Bacon (2021) Diagnostic
为了进一步了解这些偏差,作者应用诊断性测试来分析TWFE估计的稳健性。具体来说,Goodman-Bacon(2021)应用(在本文的图6中)其分解,通过绘制组成的DiD估计值与它们在TWFE估计中的隐含权重来分析组成的2×2's的贡献。同样,研究人员可以分析每一种类型的成分2×2 s的总权重和加权平均DiD估计值:涉及处理时间组与从未处理组的比较,涉及早期处理组与后期处理组(作为有效对照)的比较。特别值得关注的是,较晚与较早处理的2×2s的DiD估计值有不同的符号,或者它们在静态TWFE DiD估计值中的总权重很大。
图3的上部分显示了模拟4、5和6的诊断性测试。对于六个组成的2×2比较中的每一个,作者绘制2×2 DiD估计值及其在上的总体权重。通过标记符号来区分这三种类型的2×2比较。
Figure 3
图中显示,在交错处理时间下的异质性静态处理效应(模拟4),组成DiD的每个2×2内的ATT是无偏的。然而,OLS应用了不同的权重,导致整体加权平均处理效应与公司平均ATT不同。在动态处理效应和交错处理时间的情况下(模拟5和模拟6),所有较晚与较早处理的比较产生了负的估计处理效应(即所有蓝色三角点位于零以下),对ATT是有偏见的。相比之下,所有较早与较晚处理的2×2 s产生正的DiD估计值,对ATT来说是无偏的。
图3的下部分提供了图形上的直觉,说明为什么尽管所有的ATT都是正的,但组成的2×2s却能产生负的效果。特别是,在模拟6中考察了一个特殊的2×2,即在1989年至2015年的子样本中,将2007年接受处理的企业(作为处理)与1989年处理处理的企业(作为控制)进行比较。这个2×2例子说明了ATT偏差的概念:它产生了一个负的DiD,因为早期接受处理的企业(有效控制)的结果的巨大变化,被后来接受处理的企业(这个子样本中的有效处理企业)的结果的相对较小变化所减去。显然,这种比较是无效的,因为对照组企业的结果变化受到了处理效应会随时间变化受干扰。这个例子还强调了在动态处理效应下,即使平行趋势假设成立,也会出现不良控制的偏差,就像这里2007年和1989年的队列在没有接受处理的情况下有相同的预期反事实结果。
最后,诊断测试还表明,TWFE降低了一些较早与较晚处理的比较的权重,提高了一些较晚与较早处理的比较的权重,从而增加了可能有问题的2×2 s的影响。因此,从可能有问题的2×2 s估计出的负效应和应用于潜在的权重的组合,导致TWFE DiD估计可能明显偏离样本平均ATT。Goodman-Bacon(2021)提供的分解和诊断方法目前只能用于平衡面板,并且不包括协变量。这些都是公司财务或会计应用的非典型特征。然而,本文建议研究人员应始终分析无协变量的DiD分析作为出发点。在可能的范围内,作者认为这个诊断性测试应该被应用于分析在交错处理时间的环境中TWFE DiD估计值的潜在偏差。
4.1.3. Type-I and Type-II errors

交错的TWFE DiD估计值的偏差可能导致第二类错误。例如,在图2i的模拟5中,TWFE DiD估计的效果非常小,接近于0,尽管每个处理队列的真实ATTs是正的,而且量级很大。TWFE偏差也可能导致I型错误,即真正的处理效应平均为零,但估计的效果却不是。这是因为公式(4)中的ATT偏差可以是非零的,即使VWATT为零。为了验证这一想法,作者对模拟6做了以下修改:

对于被分配到处理组g∈{1989,1998, 2007}的观察对象i,其中.03 σROAΦ 是以零为中心的正态分布,标准差为 0.03σROA。这个修改后的模型不是像模型6那样给三个处理组中的每一个分配预先确定的趋势断点,而是从一个以零为中心的分布中抽取趋势断点。因此,文中允许不同企业的动态处理效应存在异质性,但ATT的预期值为零。
与前文一致,作者运行了500次模拟。对每个模拟的Compustat面板估计TWFE DiD回归,并计算t-Statistic,使用在州一级聚类的标准误差。图4i显示了整个模拟中t-Statistics的分布,并显示TWFE回归在79%的情况下产生了5%水平的显著处理效应估计值(或t-Statistics的绝对值大于1.96)。在未经统计的结果中,当作者将每个模拟小组内的平均ATT在观察或公司层面上限制为零时,发现了非常相似的结果:作者继续发现,在大约80%的模拟样本中,TWFE估计值在5%的水平上是显著的。在这种处理效应的异质性水平上,与TWFE交错DiD回归相关的偏差导致了很大程度的过度拒绝(第I类错误)。
作者还分析了需要多大的处理效应异质性才能在这些回归中产生虚假的推论。对不同水平的处理效应异质性(σROA的不同百分比)重复上述测试,从零到经验ROA分布的10%。在每个异质性水平上,按上述方法进行500次模拟,并计算产生绝对值大于1.96的t-Statistics的模拟的百分比。
图4ii所示的结果表明,只要有一点处理效应的异质性,就会对过度拒绝的程度产生重大影响。当没有异质性时,95%的模拟(由水平虚线表示)会产生不明显的t-Statistics(5%的Type-I错误率),正如预期的那样。然而,当作者引入小程度的处理效应变化时,I型错误率迅速增加。例如,当趋势断裂的标准差为σROA的百分之一时,超过一半的模拟产生了显著的t-统计量,即使平均ATT为零。随着作者进一步提高处理效应的异质性,产生不显著的t-Statistics的模拟百分比稳定在20%左右(I类错误率稳定在80%)。这些模拟表明,TWFE DiD估计值的偏差很容易导致虚假的推论。
Figure 4

4.2. Dynamic staggered DiD estimates

处理效应的异质性和处理时间的交错性的结合也使动态TWFE DID模型设定(或“事件研究”设定)产生偏差。研究人员经常使用公式(2)的一般化变体来估计动态处理效应。

此外,SA显示,即使有了处理效应的同质性,解决了静态TWFE DiD估计的偏差,动态处理效应估计仍然会被排除期的CATT所干扰(例如,公式(14)的最后一项)。在这种情况下,结合处理效应的同质性和确保只排除处理前的时期(或一般是CATT=0的时期)可以防止干扰。(在没有预期的情况下,期前CATT为零) 。因此,排除的相对时间段的选择会导致TWFE动态效果的偏差。
SA的分析还表明,从样本中剔除或分组遥远的相对时间指标的常见做法并不能解决干扰问题。事实上,即使在上述所有假设下(即同质性和被排除的相对时间段的CATT=0),将相对时间段分组的事件研究的效果估计仍会受到其他相对时间段的CATT的干扰。在这些情况下,避免干扰的一个有效条件是,只有当相对时间段的处理效应相同时,才将其归入分组。因此,相对时间段的选择本身也会导致TWFE动态推测的偏差。最后,SA的结果的一个关键含义是,使用导数的系数(例如,公式(12)的第一个求和项中的系数)来测试前趋势的常见做法通常是无效的。
4.2.1. Simulation analysis
为了说明TWFE事件研究估计会导致误导性的推论,考虑模拟6的一个变体(公式(10)),其中三个不同队列的趋势断点为δ1989 = 0.10σROA , δ1998 =0.05σROA,和δ1998 = 0.01 σROA。和前面的模拟一样:每个处理群组的平均处理效应为正,平行趋势假设成立,处理—控制ROA差异在每个处理前的预期中为零(即没有事前趋势)。
如前所述,作者生成了 500 个模拟的 Compustat 的ROA样本。对于每个样本,估计一个 TWFE 事件研究设定(公式(12)),其中包括处理年前后五年的相对时间指标(Relative Time =0)。为了避免共线性,作者排除了处理前一年的相对时间指标(Relative Time = -1)。按照文献中的标准做法,作者在事件研究处理前或处理后超过五年的时间,将相对时间段纳入其中。
图5,左边是相对时间指标的估计系数的分布。作者绘制了观察层面的平均ATT以进行比较。该图证实了在SA中建立的理论结果:在存在异质性处理效应的情况下,TWFE事件研究的估计值是有偏差的。期后的效果估计值相对于ATT而言是负偏的。处理后第4年和第5年的效果估计值都是负的,而且具有统计学意义,尽管这两种情况下的实际效果都是正的。
Figure 5

值得注意的是,处理前的事件研究估计也是有偏差的。尽管在数据生成过程中没有真正的前趋势,但TWFE动态模型设定对处理前的相对时间指标产生了正的和有统计意义的系数。研究者可以从观察到的事前趋势中推断出平行趋势假设被违反,任何处理后的效果估计都可能是虚假的,尽管经济上有显著的真实效果,平行趋势和无预期假设也是有效的。

当平行趋势假设不成立时,与TWFE事件研究估计相关的偏差也可能导致研究人员推断出缺乏前期趋势。考虑以下的数据生成过程:

每个组群的预期处理效应为零;但是,组群在处理前的趋势有所不同。与模拟6不同的是,在模拟中,ROA的组别趋势断裂适用于处理后,在本模拟中,组别趋势断裂适用于处理前。因此,这个数据生成过程违反了平行趋势的假设。

然而,估计上述TWFE动态模型设定产生了一个有趣的和比较有说服力的事件研究图,如图5的右侧面板所示。所有的期前系数在统计上都与零不同,这与平行趋势假设是一致的;此外,期后系数表明在较长的时间范围内处理效应为负。然而,这种虚假的事件研究图是由与TWFE事件研究估计相关的偏差驱动的,并在SA中强调。

5. Alternative estimators

作者强调了研究人员应该考虑的三种替代交错did估计方法,它们要么是在计量经济学文献中正式提出的,要么是在应用文献中作为一种补救措施被采用。

5.1. Callaway and Sant’Anna (2021) and Sun and Abraham (2021)

由CS和SA开发的前两个估计方法是密切相关的。两者都依赖于首先估计单个队列—时间—特异性处理效应(如公式(3)或(13)),考虑处理效应的异质性,然后将其汇总以产生总体处理效应的度量。然而,CS和SA在灵活性、协变量的调节、控制组的选择和推断方面存在方法上的差异。最简单的CS估计值的变体可以归结为通过简单的2×2s和干净的控制来估计队列—时间—特定的处理效应。例如,一个特定处理组(即在时间g接受处理)的处理效应可以通过以下回归来估计:

使用在时间τ和g-1的观测值,这些观测值来自于的被处理集合,或者来自于一组干净的控制集合。CS允许将尚未处理的、最后处理的或从未处理的作为干净的对照,并表明βg,τ在无预期和无条件的平行趋势下是ATT(g, τ)的有效估计。CS还推导出了在更普遍的条件下,例如平行趋势假设有条件地对协变量成立时,ATT(g, τ)的一致估计值,包括基于结果回归的估计值、反概率加权估计值和双重稳健估计值。

SA提出了一个完全参数化的基于回归的估计,该估计使用在相对时间指标和队列指标中饱和的交互式模型设定,联合估计全部的群组特定的相对时间处理效应(即样本中的每个CATTg,l)。

SA表明,在无条件的平行趋势和无预期的情况下,通过包括全部的组群特定的相对时间指标,μg,l,对于CATTs是一致的。在执行公式(17)时,放弃了总是被处理的企业,唯一可以作为有效控制的单位是那些从未被处理或最后被处理的企业。(当最后处理的单位被用作控制时,它们永远不会被用作处理的单位)。
CS和SA在估计群体时间ATTs的方法上有两个主要区别。首先,CS在选择控制组方面有更大的灵活性:SA只允许选择从未接受过处理或最后接受过处理的比较单位,而CS还允许将尚未接受过处理的单位作为控制组。第二,CS允许(处理前和静态)协变量(即当条件平行趋势假设更合适时),而SA不允许。当没有协变量,并且将从未接受过处理的公司作为有效的控制,CS和SA提供了数字上相等的估计。
SA使用平均ATT的点式推断,而CS开发并论证了同步置信区间,可以用一个简单的乘法引导程序来估计。SA直接估计其交互加权估计值的渐进标准误差,而不使用自举法。
最后,CS和SA都提供了汇总群体时间ATT的解决方案。SA的交互加权三步估计法侧重于事件研究类型的聚集:某一特定相对时间段τ的平均CATT使用各处理组群的CATT(g,τ)的加权平均值,使用各组群在相关时期的样本份额。CS考虑了各种可能的群体时间ATTs的汇总。当然,也可以应用SA这样的加权方案来创建事件研究图。然而,对于对单一总体效应估计感兴趣的研究者来说,CS建议首先计算每个处理群组的平均ATT s(跨越所有处理后时期),然后报告各队列的加权平均ATTs(例如,按各队列的样本份额加权)。这种类型的汇总产生了对所有曾经参与的单位所经历的参与处理的平均效果的估计,在精神上类似于对2×2静态DiD估计的解释。也可以对SA的CATT估计值采用这些替代加权。
总的来说,作者认为SA在执行上可能更简单(也更快),因为它在一次回归中同时估计了所有的组间处理效应,并且不使用引导推理。然而,CS方法更加灵活(例如,允许协变量和使用尚未处理的对照)。此外,它还提供了更强大的建模选项(例如,结果回归、反概率加权和双重稳健估计,以及考虑到相对时间指标的多重测试的同步置信区间)。

5.2. Stacked regression estimator

应用研究人员为规避TWFE DiD估计值的问题而开发的另一种方法是“stacked regression”。这个想法是创建特定事件的“clean 2×2”数据集,包括结果变量和处理队列的控制,以及处理窗口内所有其他观察的 " clean "控制(例如,尚未、最后或从未处理的单位)。对于每个clean 2×2数据集,研究者会产生一个数据集特定的识别变量。然后将这些事件特定的数据集堆叠在一起,并对堆叠的数据集进行TWFE DiD回归估计,其中有数据集特定的单位和时间固定的效应。这种方法可以使用静态或动态的模型设定(公式(2)或(12))。标准TWFE方法和stacked regression方法之间的估计方程的唯一区别是在每个事件特定的数据集内定义主要变量,因此,单位和时间固定效应被数据集识别器(如αig和λtg)的指标所饱和。
实质上,stacked regression从每个的2×2数据集中估计出DiD,然后应用方差加权,将各组群的处理效应合理地结合起来。这种方法可能是最容易实现的解决方案,因为研究人员希望通过OLS产生综合处理效应估计,同时规避交错处理时间和处理效应异质性带来的问题。此外,这种估计方法是有效的:它依靠OLS来确定clean 2×2 DiD的权重,以牺牲偏差换取效率。然而,相对于CS或SA方法,stacked regression估计提供了较少的聚合灵活性,并且对于样本平均ATT来说可能是不一致的。

5.3. Simulation: Alternative estimators

图6比较了模拟1-6(在第3.1.1节中考察)下的三个备选估计值。在每种情况下,CS和SA对数据中的样本ATT是无偏的。(注意本图中的样本ATT与图2不同,因为作者只计算有有效对比单位的队列的处理效应,而且只计算处理分配后5年的效果。) 另一方面,stacked regression可能与样本平均ATT不同,特别是当不同组群或时间的处理效应存在异质性时。这些差异反映了与CS或SA相比,stacked regression方法中隐含的对组成clean2×2的替代性加权;它们不是动态处理效应下可能出现问题的2×2比较的结果。由于OLS通过权衡偏差和效率来确定这些权重,因此在图6中,相对于CS或SA,stacked regression估计量也表现出更高的效率(即更紧密的分布)。值得注意的是,这些替代方案都没有表现出TWFE DiD估计器的符号翻转问题(即,图2的模拟6)。
图7比较了使用每个替代方法的事件研究估计。作者把重点放在模拟6上,在这个模拟中,TWFE的偏差是最严重的。每种替代估计方法都能恢复真实的处理路径。相对于每个相对时间段的样本平均ATT,stacked regression方法产生的估计值略大,这也是由于使用了OLS方差加权而非样本份额加权的结果。图6和图7表明,在处理时间交错和处理效应异质的情况下,每一种替代估计方法对估计处理效应都很有效。
Figure 6

Figure 7

6. Applications

作者检验了两篇发表在顶级金融期刊上的论文,它们依赖于TWFE交错DID回归来评估政策的效果,并且都在TWFE估计的缺陷的计量经济学文献出现之前。

6.1. Beck et al. (2010) (BLL)

BLL分析了美国银行分支机构放松管制对收入分配的影响,这种影响发生在各州之间,并随着时间的推移而交错。通过利用放松管制的跨州跨期变化,BLL发现州际银行限制的取消导致收入不平等的下降。表2给出了以下静态DID回归的结果。

表2第1栏提供了对TWFE估计值的诊断。图8i显示了各州的处理时间,表明有很大的变化,大部分的放松管制发生在20世纪70年代和90年代之间。然而,处理时间的变化也表明,可能有问题的2×2 s可能影响静态的TWFE估计。为了研究这种可能性,作者实施了Goodman-Bacon(2021)诊断法。图8 ii以图形方式比较了每一个2×2组成的DiD和它在两类比较的集合OLS估计中的权重。此外,底部面板(iii)通过取其加权平均数来总结每个面板中的数据点,在图8 ii中表示为水平红线。分解结果表明了一个值得关注的理由。BLL对收入不平等的负面效应是由相对较少的有潜在问题的2×2 s驱动的。这些2×2 s将后期处理的国家与早期处理的国家(作为有效控制)进行比较,产生了平均的负面效应,在整个TWFE估计中得到了0.86的权重。相比之下,将早期处理的州与后期处理的州(作为有效对照)进行比较的干净的2×2 s产生的平均效果接近于零,在整个TWFE估计中得到的权重相对较低,只有0.14。
Figure 8

作者还复制了BLL的事件研究分析,该分析从以下回归中绘制了事件时间系数和标准误差:

这个模型设定不是一个单一的二进制指标(即之前的模型设定中的Dst),而是用25个独立的指标变量来表示相对于采用年(g)的年份,从g - 10到g + 15。此外,BLL对最遥远的相对时间段进行分组:所有早于采用前10年的年份都被归入g-10分组,所有大于采用后15年的年份都被归入g+15分组。作为参考年,处理年(g+ 0)被排除在群组中。此外,BLL 实施了归一化,它达到了强迫采用前系数以零为中心的效果。
图9,面板A,复制了BLL的事件研究图,表明放松管制对收入不平等的负面影响。在取消管制前的时期,相对时间假数的系数以零为中心,表明缺乏前期趋势,与平行趋势假设一致。然而,在放松管制后,立即出现了统计学上显著的负效应,并随着时间的推移,GINI指数下降了4%。
Figure 9

作者对BLL的事件研究分析做了三处改动,以分析它的模型设定选择的影响。在B组中,直接绘制了回归结果的系数,而没有减去采用前系数的平均值。这种调整使事件研究图向上移动而不改变趋势;然而,大多数后期系数的置信区间现在覆盖了零。在 C 组中,还取消了分档;估计了一个“完全动态”的群组,在估计中包括了全部的相对时间指标。此外,在D组中,删除了所有在1977年之前放松管制的州(即在样本中一直被处理的州)和1999年之后的所有观测值。
C组和D组显示,去除分档后,事件研究图发生了明显变化。这些结果与上文讨论的Sun和Abraham(2021)的理论分析相一致:在异质处理效应下,相对时间段的分档本身会使TWFE交错DiD动态效果的估计出现偏差。图9中的事件研究都没有准确描绘出放松银行业管制对收入不平等的影响。在处理异质性下,每个小组的所有动态TWFE交错DiD估计值都可能有偏差。因此,作者应用CS和stacked regression的方法,为BLL的动态效果估计提供一个更好的基准。
在图10i中,作者以两种方式实现CS估计:一种是使用最后采用的州(面板A),一种是使用后来采用的州(面板B)作为有效的比较单位。按相对时间汇总群体—时间处理效应,并报告从g - 5到g + 10的相对时间段的点估计和标准误差。在两个小组中,CS的估计值并没有表明银行业放松管制后收入不平等的下降。如果有的话,这两个小组都表明,在放松管制的几年后,不平等现象会增加,这是一个边际证据。
Figure 10

图10ii报告了使用stacked regression方法的事件研究估计。在A组中,将包括在某年放松管制的州(处理组)和所有在10年内没有放松管制的州(有效控制)的观察结果的特定群组数据集堆叠起来。在B组中,将包括所有在该年放松管制的州(已处理)和所有其他尚未处理的州年观察值(有效控制)的特定群组数据集堆叠起来。作者只保留给定处理年的5年和10年内的州年观察数据,并使用数据集特定的时间和州固定效应,对叠加数据进行事件研究法设定估计。这些结果与使用CS的结果相似,并没有显示出银行业放松管制后收入不平等的显著下降。

最后,提供了对放松银行业管制的整体不平等效应的替代性估计。表2,B组,报告了使用CS(第1栏)和stacked regression(第2栏)的整体处理效应估计。在这两种情况下,使用较晚处理的州作为有效控制,并且为了与图10 i和ii中的事件研究分析保持一致,只包括g - 5到g + 10窗口中的相对时间段。因为所有的州都在1999年之前接受了处理,所以叠加的数据集都不包括1999年之后的观察。CS和stacked regression总效应估计值的大小相似,接近于零,并且在10%的水平上统计上不显著。这些结果与A组中的负值和统计意义上的静态估计值有很大不同。
作者对BLL的复制强调了TWFE交错DiD处理效应的偏差的潜在严重性,以及应用计量经济学或应用文献所建议的补救措施在推论上的巨大差异。这些偏差可能导致研究人员推断出不存在的重大影响。

6.2. Fauver et al. (2017) (FHLT)

公司治理方面的大量文献研究了美国的董事会治理实践与公司业绩或价值之间的关系;然而,在其他国家却没有什么证据。FHLT分析了全球41个主要董事会改革的数据,这些改革要么规定或建议董事会、审计委员会或审计师的独立性,要么要求将董事长和CEO的职位分开。本文的识别策略依赖于这些国家层面的董事会改革在1990年至2012年的交错实施。FHLT发现,这些改革增加了公司的平均价值,以托宾Q值衡量。
本文使用了两个不同的有效日期来定义董事会改革的 “待遇”:一个是基于作者所定义的 “主要”董事会改革的时间,另一个是基于首次董事会改革的时间。图11显示了各国主要和首次董事会改革的时间。由于作者使用的是公司层面的数据,不同的州由于拥有不同数量的上市公司而在DiD中获得不同的权重。在该图中,有更多公司年度观察数据的州的方格颜色较深。
表3,面板A,第1列和第2列复制了Fauver等人(2017)的结果,这些结果使用了两个改革定义的完整数据面板。作者完全复制了点估计值,但得到的标准误差略有不同,因为不同的软件包在计算聚类标准误差时 计量效应回归中的分组标准误差。

Figure 11

在第3列和第4列中报告了不含协变量的TWFE DiD估计值,在经济规模和统计意义上都与第1列和第2列相似。与FHLT一致,复制结果显示,董事会改革与较高的托宾Q值有关。
理想情况下,在分析FHLT的TWFE DiD估计值在多大程度上容易受到处理效应异质性的潜在偏差影响时,作者将实施Goodman-Bacon(2021)诊断法。然而,该诊断法只适用于平衡的小组,而FHLT的小组是高度不平衡的。因此,对FHLT结果的分析是通过研究在替代估计量下效果估计的不同来进行的。按照上述BLL复制的结构,首先检查FHLT的事件研究TWFE DiD估计值,并将其结果与CS和stacked regression方法下的动态效应估计值进行比较。最后,用CS和stacked regression的方法提供了董事会改革对采用企业的总体价值效应估计,并与FHLT的主要静态效应估计进行比较。作者复制了BLL的事件研究分析,该分析估计了以下回归。

在模型3中,作者取消了分档;并估计了一个完全动态的模型设定,在估计中包括了完整的相对时间指标。为了实现这一设定,省略了改革前一年和五年的相对时间指标,以避免完全共线性。由此产生的事件研究图提供了一个截然不同的画面:不再观察到改革后的明显正效应,所有的点估计都更接近于零。最后,在模型 4 中,使用整个样本来估计一个完全动态的模型设定。在估计中包括了完整的相对时间指标(超过了改革前后的五年),排除了最负的相对时间段的指标和改革前一年的指标,只报告改革前五年到改革后五年之间窗口的系数。在估计这个模型时,也排除了最终处理后的观察结果,如图9的D组,因为这些观察结果没有有效的控制,因此不能用来识别处理效应。第4节中描述的补救措施都没有使用这些观测值。模型 4 的事件研究图与模型 3 相似,同样没有强烈的证据表明重大董事会改革产生了积极的价值效应。一个不同之处是,模型4确定了一个额外的系数(即g - 4),这是有可能的,因为它使用了围绕改革的十年窗口之外的观察结果。
图12 ii分析了FHLT对第一个董事会改革的价值效应的事件研究估计,其修改顺序与图12 i相同。作者放宽了对处理后相对时间段的划分,或者对整个样本进行完全动态推测的估计,就不再发现有强烈的证据表明第一次董事会改革产生了正的价值效应。这些结果加强了相对时间段分档对事件研究估计的重要作用,如果托宾Q值的动态效应在董事会改革实施后适用,FHLT选择在改革后一年开始分档。可能会加剧TWFE事件研究估计的潜在偏差。有可能图12中的事件研究都没有准确描绘出董事会改革的价值效应。在处理异质性的情况下,每个小组的所有动态TWFE交错DiD估计都可能有偏差。
为了给FHLT的动态效果估计提供一个基准,作者应用了CS和叠加回归方法。只关注那些使用最大数量的处理前观察数据并选择后来处理的公司作为clean控制单位的变量。与图 12 一样,只报告g-5到g+5窗口内的动态效应估计值。然而,与图12不同的是,恢复了将处理年份表示为相对时间段0的惯例。
Figure 12

图13 i和ii显示了把重大改革(A组)或首次改革(B组)作为冲击时,CS和stacked regression估计的结果,都没有显示出改革对企业估值有统计学上的积极影响。CS和stacked regression的估计值都表明,在重大改革五年后,对公司价值有负作用。最后,作者提供了采用董事会改革的整体价值效应的替代估计。表3,B组,报告了使用基于回归的CS估计值(第1栏)和stacked regression估计值(第2栏)的总体处理效应的结果。在这两种情况下,作者使用尚未处理的公司作为有效控制,并且为了与图13中的事件研究分析保持一致,只包括g - 5到g + 5窗口中的相对时间段。
无论是首次改革还是重大改革作为冲击,CS的总效应估计值在10%的水平上都是不显著的。此外,与A组第3列和第4列的TWFE估计值相比,这些CS估计值的幅度较小,标准误差较大。对于重大改革,stacked regression在10%的水平上也不显著,而且点估计值与CS的类似。然而,stacked regression产生了一个与第一次改革相关的正显著的效果。部分原因是stacked regression的估计值通常更精确,与CS相比,标准误差更小。另一个原因是,stacked regression的第一次改革效应估计值相对较大。
作者进一步仔细研究了图13ii 面板B中相应的动态效应估计值。该图显示了一些事前趋势的证据:改革前三年的效应估计值(g - 3)是负的,在统计学上是显著的,此后直到改革当年都是单调增长。由于stacked regression的总效应估计值实质上是改革后和改革前动态效应估计值之间的差异,因此,明显的正的总效应部分反映了前趋势的存在。相比之下,CS的总效应估计值基本上是图13i,面板A和B中所示的期后动态效应的总和。
Figure 13

7. Conclusion and recommendations

最后,作者提供了一组实用的建议,供有兴趣利用这种设置进行因果推理的应用研究人员参考。
  1. TWFE DiD回归适用于单一处理期或可假设为同质处理效应的环境。在后一种情况下,研究者应该为同质性提供理论依据。

  1. 报告TWFE交错DiD回归的研究人员应提供对偏差可能性的评估。作者建议,绘制各队列的处理时间,处理时间的显著变化表明存在偏差的可能性。作者还建议在可能的情况下对静态TWFE DiD估计值进行分解(如Goodman-Bacon, 2021年的分解)。当这种分解不可用时(例如,如果面板是不平衡的),并且从未被处理过的企业是适当的有效控制(即平行趋势假设可能成立),研究人员可以报告样本中从未被处理过的观察值的百分比:从未被处理过的单位的百分比越大,与TWFE交错DiD回归有关的偏差问题就越小。此外,研究人员应阐明处理效应的预期异质性。

  1. 实施TWFE交错DiD事件研究的研究者应该避免对相对时间段进行分组,除非他们有理由相信在一个分组内的相对时间段适用同质效应。在事件研究的DiD中列出所有可能的相对时间指标,即使只报告其中一个子集的系数。研究人员手动指定并论证参考期,一般来说,参考期应该是处理前的时期,没有预期的处理预测。指定具有多重共线性的回归模型可能会导致统计软件包自动放弃相对时间段,这可能会产生偏差(例如,如果处理后的相对时间段被遗漏)。

  1. 有了不同的处理时间和对偏差的合理关注,研究人员应该至少应用其中的一个替代估计。那些希望接近TWFE交错DiD回归的人可以实施stacked regression作为基线。在这样做的时候,研究人员报告一个没有时间变化的协变量的stacked regression的变量,以了解效果估计的稳健性和它们对包含控制的依赖程度。为了获得更灵活的估计,建议研究人员应用Callaway和Sant'Anna(2021)的回归、反概率加权或双重稳健的变量。另一种方法是单独分析每个处理事件。

  1. 在应用替代估算时,研究人员应证明他们选择的 “clean”比较组,即尚未处理、最后处理或从未处理的,并阐明为什么平行趋势假设可能适用。当使用尚未处理或最后处理的单位作为特定事件窗口的比较组时,研究人员还应该验证这些单位没有预期效应的假设。

  2. 无论使用哪种估计方法,静态的DiD估计应该伴随着事件研究的估计,追踪出处理单位和控制单位之间结果差异的时间。在这两种情况下,分析中包括的每个处理队列的事件窗口的时间长度都会影响到处理效应估计。


    关于双重差分,参看:1.120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!2.诚实双重差分法DID, 面板事件研究法和Bacon分解的经典应用文!3.前沿: 多期或渐进或交叠DID, 如何进行平行趋势检验呢?4.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,5.DID前沿: 5种方法估计事件研究的因果效应, 并使用绘制系数和置信区间, 详细代码和数据,6.事件研究法开展政策评估和因果识别, 分享8篇提供数据和代码的文章,7.推荐用渐进(多期)DID和事件研究法开展政策评估的论文及其实现数据和代码!8.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!9.前沿, 模糊双重差分法FDID方法介绍和示例, 附code和数据!10.双重差分法和事件研究法的区别主要在哪里?11.前沿, 合成双重差分法SDID方法介绍和示例, 附code和数据!12.具有空间溢出效应的双重差分法估计最全综述, 理论和操作尽有!13.最新Sun和Abraham(2021)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!


    下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

    4年,计量经济圈近1000篇不重类计量文章,

    可直接在公众号菜单栏搜索任何计量相关问题,

    Econometrics Circle




    数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存