如何正确使用PSM倾向得分匹配, 来自top英文期刊上的分析与总结！

Original 因果推断研究小组计量经济圈 2022-05-11

收录于合集

#计量圈社群讨论 45 个

#计量圈匹配法 1 个

#计量圈PSM 7 个

#计量圈因果推断 34 个

#因果推断研究小组 7 个

凡是搞计量经济的，都关注这个号了

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于PSM及matching方法，可以参看：1. PSM倾向匹配Stata操作详细步骤和代码，干货十足，2.处理效应模型选择标准，NNM和PSM，赠书活动，3.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王，4.PSM, RDD, Heckman, Panel模型的操作程序, selective文章精华系列，5.广义PSM,连续政策变量因果识别的不二利器，6.PSM-DID, DID, RDD, Stata程序百科全书式的宝典，7.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References，8.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例，9.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器，10.执行PSM的标准操作步骤, 不要再被误导了，11.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？12.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式！13.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文！14.内生性问题和倾向得分匹配, 献给准自然试验的厚礼，15.粗化精确匹配CEM文献推荐, 程序步骤可复制，16.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，17.匹配方法(matching)操作指南, 值得收藏的16篇文章，18.中国工业企业数据库匹配160大步骤的完整程序和相应数据，19.Match匹配估计做敏感性检验的最新方法, 让不可观测变量基础上的选择无处遁形，20.无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同，21.因果推断中的匹配方法:最全回顾和前景展望，22.内生性问题和倾向得分匹配, 献给准自然试验的厚礼，23.倾向值匹配与因果推论,史上最全面精妙的锦囊，24.匹配还是不匹配？这真是个值得考虑的问题，25.匹配比OLS究竟好在哪里？这是一个问题，26.倾向匹配分析深度（Propsensity matching analysis）

正文

关于下方文字内容，作者：吴振香，西交利物浦大学经济与金融，通信邮箱：Zhenxiang.wu19@student.xjtlu.edu.cn

注：在读完这篇文章后，可以前往文后PDF进行更细致研读。

Propensity score matching (PSM) has become a popular technique for estimating average treatment effects (ATEs) in accounting research. In this study, we discuss the usefulness and limitations of PSM relative to more traditional multiple regression (MR) analysis. We discuss several PSM design choices and review the use of PSM in 86 articles in leading accounting journals from 2008–2014. We document a significant increase in the use of PSM from zero studies in 2008 to 26 studies in 2014. However, studies often oversell the capabilities of PSM, fail to disclose important design choices, and/or implement PSM in a theoretically inconsistent manner. We then empirically illustrate complications associated with PSM in three accounting research settings. We first demonstrate that when the treatment is not binary, PSM tends to confine analyses to a subsample of observations where the effect size is likely to be smallest. We also show that seemingly innocuous design choices greatly influence sample composition and estimates of the ATE. We conclude with suggestions for future research considering the use of matching methods.

PSM已经成为会计研究中用于估算平均处理效应的一个越来越流行的方法（table 1）。通过回顾2008-2014年，在主要会计期刊上发表的86篇文章使用PSM的研究，探讨PSM相对于传统的多元回归(MR)分析的有用性和局限性以及PSM设计选择对统计推断的影响。

1 介绍

估计因果处理效应通常是实证会计研究的一个重要目标。使用非实验数据的研究必须解决非随机处理组分配导致的内生性问题。文档研究多使用多元回归模型（MR）解决观测数据的内生性问题。然而，多元回归需要对回归结果和解释变量之间的关系进行适当的函数设定才能获得无偏估计量。如果Y和X之间的函数设定错误，那么MR就会存在模型函数形式设定偏误（FFM）的问题从而使得估计量有偏。倾向得分匹配的优势在于不需要设置特定的函数形式，故使用该种方法能够消除由于模型函数形式设定不当而造成的偏误。机理上，倾向得分是在不同维度上通过协变量算出进入处理组的概率/得分（scoring），并根据这个概率将处理组和对照组的观测结果相匹配。PSM的反事实推断允许直接和直观的估计处理效应，对变量之间的函数关系放宽假设。但是，除了减少FFM所带来的估计偏误，PSM与传统MR方法相比，在理论上几乎没有什么好处。

2 倾向得分匹配的背景

2.1 内生性，FFM和倾向得分匹配

在非实验的设定下，研究主要面临的是内生性问题。让我们来考虑大学学位对个人收入的影响。最理想的是通过随机的分配大学教育以及比较上大学和没上大学之后的个人收入来估计平均处理效应。在这种设定下，决定收入的因素是独立于是否选择上大选的，这从根本上消除了内生性的影响。但不幸的是，这种实验设定几乎是不可能的。由于没有这种实验，我们需要通过非实验设定来估计ATE。

Wi = b0 + b1Di + ei （1）

Wi = b0 + b1Di + bXi + ei （2）

如果变量之间的关系设定不合理，那么就违背了E[ei|Xi] = 0 的假设，系数估计将会有偏。即，如果Wi和Xi的关系被错误设定，MR模型对于Xi的调整就是没有效的。这种类型的内生性被称为FFM,适当的函数形式的影响归为误差项并且和处理组（Di）有关，b1_hat有偏。

在估计处理效应时，匹配通常能够有效解决FFM问题。即，将具有大学学历的个体(Di = 1)与具有相同IQi (Xi)但没有大学学历的个体(Di = 0)匹配，消除了处理样本和对照样本之间的智商差异。因此，研究人员可以根据IQi (Xi)的影响进行调整，而无需对变量之间关系的函数形式进行假设。在观察性研究中，如档案会计研究中，决定处理组分配的因素往往是多维度的。使用条件为Xi的处理概率来匹配处理和控制多个维度的观测值，其中Xi是影响Di和Wi的变量的向量。这个概率或“倾向分数”是估计的二进制选择模型如下：

Di = b0 + bXi + ei （3）

处理过的(Di = 1)观察值与未处理过的(Di = 0)观察值匹配，其倾向得分从公式(3)中估计。由于倾向得分包含了Xi对Di=1的可能性的影响，PSM理想地创建了一个处理过的和未处理过的在Xi上相似的观察的样本，从而最小化Di和Xi之间的相关性，并减少FFM的影响。在此过程中，PSM的估计只关注“共同支持集”内的观察结果。

如果IQi能够很好的预测哪一个个体获得大学学位，那么匹配的样本就更可能不包含高智商上大学以及低智商不上大学的个体，因为他们不太可能有反事实。事实上，随着IQi和Di关系的增强，高质量匹配的数量减少（共同支撑集↓，将会↓PSM的一般性和估计能力）。而PSM估计值的外部有效性取决于样本的平均处理效应是否接近总体的平均处理效应。在许多案例中，PSM缩小了样本大小，可能会限制在共同支持集之外有效估计的能力。

2.2 会计研究中的倾向分数匹配——误解与局限

与MR相似，PSM并不能解决大部分的关于自我选择或者由于无法定义，无法准确衡量某县变量从而产生的内生性问题。故，建议PSM作为Heckman类型的选择模型是不准确的，无条件地声称PSM能够消除大部分的与“内生性”，“自我选择偏误”以及“遗漏变量偏误”问题也是不妥当的。

另一个对于PSM的明显误解是认为PSM能够模拟实验的条件或称为准实验。虽然处理组和对照组之间的X上的协变量平衡可能类似于实验条件，但PSM缺少真正实验的重要特点。（1）PSM能缓解处理组在可观察特征上出现系统性差异时。但实验使得处理分配随机化，能够有效地控制可观察和不可观察的因素。（2）不同于实验在设定分配机制之前就定义了因果，PSM只决定了在分析中包含(或加权)哪些观测值。

PSM的另一个问题与外部有效性有关。在重叠有限的情况下，PSM系统地排除了缺乏反事实的观察结果，从而影响了ATE估计在样本之外的推广程度。即使在重叠的范围内，PSM的结果对设计选择也很敏感。许多“重叠”的观察结果可能不匹配，除了缺乏适当的反事实之外，还有其他因素。

2.3 PSM中重要的设计选择

Angrist&Pischke (2009,86)：

“在进行倾向得分匹配时，有很多细节需要明确说明，比如如何对得分建模，如何进行推理;然而这些细节没有固定的标准。因此，即使使用相同的数据和协变量，不同的研究很可能得出不同的结果。”

2.3.1 估计倾向得分的主要设计选择

确定实验组和对照组：通过匹配，观测对象要被分配到实验组和对照组中。一些实验组的构成是二元的，例如是否为国际财务报告准则，但另一些实验组是由连续变量构成的，如事务所规模，分析师数量，高管薪酬等在进行分配时需要粗化。因此，必须选择分界点来区分实验组。在这类情况下，匹配将倾向于发生在最接近分配的分界点的那些观测对象，处理组的方差会被降低，从而减弱了检验的能力增加了犯第二类错误的可能。

预测模型的说明--与MR相似，研究者们应该识别与结果和处理有关的混淆因素(X)。PSM在估计倾向得分时，通过在模型中添加X来控制混淆因素。由于估计的得分取决于模型中包含的变量X，变量的选择将会影响的样本的构成，并且很有可能也会影响到统计推断。因此，X的选择需要相关的理论来支撑。PSM匹配模型不应该基于拟合或预测能力来指定而是基于平衡处理组之间潜在的混淆或不正确的协变量。通常，PSM和MR模型之间的变量选择应该是类似的，如果理论不支持某一个变量应该被放入MR模型中，那么这个理论应该同样的不允许PSM模型加入该变量。

2.4 形成匹配样本的主要设计选择

重复和不重复的匹配

在不重复匹配中，每个对照观察只能匹配一次，即使它是多个处理观察样本的最佳匹配。因此，与重复匹配相比，不重复匹配的匹配质量更低，样本量更小。

理论上，重复观察可以减少偏差，因为每一个处理组的观测值都与最相似的控制组观测值相匹配(就倾向得数而言)。重复匹配还能增加样本大小。在估计时，重复匹配必须适当加权以反映匹配的次数，并且必须调整标准误。但具有极端倾向分数的重复观测值往往更有可能被多次匹配，因此，权重很大。这个问题可能导致错误的统计推断，如果与离群倾向得数的观察是非代表性的。最后，在进行重复匹配时，研究者应该披露哪一组被指定为对照组且进行了重复匹配。

匹配半径——施加一个合适的匹配半径通常能够降低“差”匹配的可能性并且改善协变量平衡。

“一对一”和“一对多”匹配

会计研究中最常见的匹配方法是“一对一”匹配，即一个处理观测值与一个对照观测值相匹配。当对照观测值超过共同支持范围内的处理观测值，并且每个处理观测值存在许多合理的反事实时，“一对多”匹配更有效。“一对多”匹配通常会降低某些匹配的质量，但能降低抽样方差。与重复匹配一样，在一对多匹配时，ATE的估计应该适当地对观测值进行加权。

2.5对匹配样本进行评估

对匹配质量的评估——由于PSM是所有变量的综合度量，这将会减少协变量的差异。但PSM并不能总是产生完美的反事实匹配，特别是对于连续变量。因此，研究人员应该通过确定协变量的残差差异是否足够显著，来测试匹配质量。对“协变量平衡”的检验一般使用组间均值或中位数差异。然而，即使差异“在统计上不显著”，也不能确定模型不存在FFM问题。同时，协变量差异，即使在统计上显著，也可能比未匹配的样本中小得多，从而显著减少了FFM的偏差。如果PSM不能实现协变量平衡，就没有明确的解决方案。但在评估匹配的有效性时，需要考虑协变量差异大小和潜在影响。

2.6 估计处理效应

匹配后，可以使用简单的t检验或MR(有时称为“双向稳健”估计)估计ATEs。如果协变量平衡，那么可以使用t检验。当协变量不平衡时，使用MR来调整组间协变量的残差差异。

3.PSM在会计研究中的一个案例分析

3.1 样本选择和数据描述

样本由2004 - 2012财政年度的post-Sarbanes-Oxley (SOX)后的观察数据组成，排除了所有外国公司和金融服务(两位数SIC代码60-69)的观察结果。同时，不包括总资产少于500万美元的观察和所有行业年(基于两位数SIC代码)中包含少于10个观察值得样本。

3.2 研究设计

分别从事务所规模，内部控制质量，分析师跟踪

三个方面估计它们对财务报告质量的影响并检验其敏感度。

使用如下方程估计倾向得分以及平均处理效应。

包括、、，设置匹配半径为0.03。

使用非正常应计利润和一般公认会计准则

作为财务质量的代理变量。此外，模型还控制了公司异质性，变量主要包括公司规模，绩效，财务状况等。

3.3 检测FFM问题

首先评估FFM在使用MR时是否会引起内生性问题。分别检验简约方程模型和扩展方程（包含控制变量的非线性形式，如二次方三次方等）对ATE的估计是否相同来检验模型是否存在FFM问题。如果简约方程和扩展方程的ATF估计结果不同，则说明模型可能存在FFM问题。

table 3 中（3）和（6）的估计结果显示，Chow检验对扩展模型和简化模型之间的ATE测试表明，

和的非线性形式显著影响财务报告质量。因此在这两个模型中可能存在FFM。

3.4 第一阶段预测模型

table4汇报了用于计算每个处理的倾向得分的第一阶段估计。研究经常表明，第一阶段的高解释力是PSM的理想条件。然而，第一阶段的解释力很大程度上是由分配治疗的性质所驱动的。即处理组在X上的差异越大，预测模型的解释能力越强。我们注意到，第一阶段模型的解释能力程度并不一定表明PSM的有效性，因为第一阶段模型的解释能力越强，处理组之间的共同支撑集越小。

3.5 不可重复匹配

使用相同的控制变量，table 5 是一对一不可重复匹配PSM和MR估计结果。结果表明，对ATE的PSM估计的大小可能减弱或缺乏外部有效性（Table5 Panel A）。

Table 5 panel B 显示了使用MR（全部样本以及和PSM相同样本）的协变量平衡性和ATE估计结果。值得注意的是，匹配之后的事务所规模的九个中的八个协变量在四大与非四大之间统计上不再显著。Chow检验表明PSM和MR估计在每个设定中统计上存在显著差异。

3.6 重复匹配

在重复匹配时，应仔细考虑和披露哪一组是重复的。用table 5的不可重复匹配作为基准模型（table 6 的列（1）和列（7）），chow检验的结果表明ANLYST和BIG4由于是否重复的设计不同，即使是相同样本，统计推断也有着显著的差异(table 6 panel A)。

对于是否进行重复匹配已经重复匹配的设计方式对ATE估计中的结果也是有显著影响,如Auditor size（table 6 panel B&C）。

3.7 匹配变量对ATE估计的影响

table 7 是将PSM第一阶段LNASSETS替换为LNMARKET，接着进行与table 5 相同的匹配，chow检验结果显示,在更换变量后，部分结果统计上显著不同。

table 8 是在原有的PSM第一阶段增加一些额外的变量，与原结果相比，新增变量模型的估计结果存在显著差异。

4.对未来研究的建议和考虑

4.1 改进倾向得分匹配应用的建议

研究使用PSM的动机应该是为了解决FFM问题，而非消除“内生性”，“自我选择”或“存在遗漏变量”问题。

在仅从单个(或少数)PSM样本得出推论之前，对于结果应更加谨慎。PSM与MR的统计推断应该是相类似的，因此两者结合使用得到的结果会更稳健。

PSM与MR模型所包含的变量应该相同。同样地，在PSM的第二阶段，研究应该使用所有控制变量(“双重稳健”估计)估计MR的处理效应。

研究应该披露PSM的设计选择，使得估计结果具有可重复性。具体来说，应该披露（1）用来估计倾向得分的模型（2）用来估计ATE的模型（3）是否为重复匹配（4）多少个对照组用本匹配一个处理组样本（5）匹配半径以及协变量平衡性

4.2 在进行倾向得分匹配时需考虑：

（1）处理组的设定，尤其是当变量为连续变量时。

（2）考虑匹配变量与处理效应之间的关系，决定处理组选择的样本特征也可能与处理效应有关

（3）考虑备选的匹配设计选择是否也能产生类似的估计结果

参考文献：

Shipman, J. E., Swanquist, Q. T., & Whited, R. L. (2017). Propensity Score Matching in Accounting Research. The Accounting Review, 92(1), 213-244.

（如果长按没反应，点一下图片然后再长按就可以了）

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

如何正确使用PSM倾向得分匹配, 来自top英文期刊上的分析与总结！

1 介绍

2 倾向得分匹配的背景

2.1 内生性，FFM和倾向得分匹配

2.2 会计研究中的倾向分数匹配——误解与局限

2.3 PSM中重要的设计选择

2.4 形成匹配样本的主要设计选择

2.5对匹配样本进行评估

2.6 估计处理效应

3.PSM在会计研究中的一个案例分析

3.1 样本选择和数据描述

3.2 研究设计

3.3 检测FFM问题

3.4 第一阶段预测模型

3.5 不可重复匹配

3.6 重复匹配

3.7 匹配变量对ATE估计的影响

4.对未来研究的建议和考虑

4.1 改进倾向得分匹配应用的建议

4.2 在进行倾向得分匹配时需考虑：

参考文献：

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

如何正确使用PSM倾向得分匹配, 来自top英文期刊上的分析与总结！

1 介绍

2 倾向得分匹配的背景

2.1 内生性，FFM和倾向得分匹配

2.2 会计研究中的倾向分数匹配——误解与局限

2.3 PSM中重要的设计选择

2.4 形成匹配样本的主要设计选择

2.5对匹配样本进行评估

2.6 估计处理效应

3.PSM在会计研究中的一个案例分析

3.1 样本选择和数据描述

3.2 研究设计

3.3 检测FFM问题

3.4 第一阶段预测模型

3.5 不可重复匹配

3.6 重复匹配

3.7 匹配变量对ATE估计的影响

4.对未来研究的建议和考虑

4.1 改进倾向得分匹配应用的建议

4.2 在进行倾向得分匹配时需考虑：

参考文献：

您可能也对以下帖子感兴趣