实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施！

Original 计量经济圈计量经济圈 2022-05-11

收录于合集 #计量圈内生性 11个

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

正文

关于下方文字内容，作者：仇旸，英国华威大学经济学，通信邮箱：Yang.Qiu.1@warwick.ac.uk

作者之前的文章：1.计量院士为你讲解回归控制法HCW的操作, 并配上自己写的一篇范文！2.用回归控制法HCW(附程序和数据)评估各国经济刺激计划的影响, 真是一个好主意！3.诺奖夫妇花16年时间, 关于中国的研究终于在期刊上发出来了！4.主流: KHB法测度中介效应, 无论线性还是非线性模型, KHB都能分解出直接和间接效应！5.关于顶级外刊工具变量的使用最全策略, 不收藏反复读就不要谈IV估计！

Clougherty JA, Duso T, Muck J. Correcting for Self-selection Based Endogeneity in Management Research: Review, Recommendations and Simulations. Organizational Research Methods. 2016;19(2):286-347. doi:10.1177/1094428115619013
Foundational to management is the idea that organizational decisions are a function of expected outcomes; hence, the customary empirical approach to employ multivariate techniques that regress performance outcome variables on discrete measures of organizational choices (e.g., investments, trainings, strategies and other managerial decision variables) potentially suffer from self-selection based endogeneity bias. Selection-effects represent an internal validity threat as they can lead to biased parameters that render erroneous empirical results and incorrect conclusions with regard to the veracity of theoretical assertions. Our review of the empirical literature suggests that selection-effects have received increasing attention in both micro- and macro-based research in recent years. Yet even when researchers acknowledge the issue, the techniques to correct for selection-effects have not always been employed in the proper manner; thus, estimations often suffer from shortcomings that potentially render flawed empirical findings. We explain the nature of self-selection based endogeneity bias and review the techniques available to researchers in management to correct for selection-effects when organizational decisions are discrete in nature. Furthermore, we engage in Monte Carlo simulations that demonstrate the tradeoffs involved with alternative techniques.

1. 摘要

管理学就是通过预期结果以完成组织结构的决策。因此当人们惯用多个代表性能结果的变量对不连续的组织结构决策（例如投资、培训、战略以及其他管理决策变量）进行回归时，就有可能产生自我选择导致的内生性问题。选择问题之所以会影响内部有效性。是因为它会导致系数偏倚，即因所主张的理论的准确性导致错误的结论。作者通过查阅过往文献，认为近几年来，选择效应在微观和宏观领域的重视程度都在逐步提高。即便如此，对如何纠正选择效应仍没有一个合适的方法。在本文中，作者先解释了自我选择导致的内生性问题，并且查阅研究者们在不连续组织结构决策条件下，解决此选择因素的方法。然后，作者使用Monte Carlo模拟，阐述了不同解决方法的利弊。

2. 基于选择效应的内生性问题

在管理学研究中，研究者们通常是无法通过随机试验得到结论的。Bascle (2008)指出，处于伦理道德要求、费用、管理者以及企业对随机归属实验组/控制组的不愿意，随机控制实验在管理学研究中往往不可行。Li (2012)也指出因为研究人员只依赖于可观测数据以及回归模型，自变量无法被外界操控。因此，内生性问题在管理学研究中很值得关注。

内生性问题会导致估计量与真实值不相符，其原因有三种：测量偏误、联立性偏误，以及遗漏变量。Bascle (2008)指出，遗漏变量是管理学研究中导致内生性问题的主要因素。遗漏变量会影响因变量，且与至少一个自变量相关，因此该遗漏变量会影响误差项，违背OLS外部性假设，即在给定自变量的条件下，误差项的期望为0.

在诸多内生性问题中，管理学研究中尤为突出的是选择导致的内生性问题。选择的过程意味着一个影响误差项，且与内生选择结构以及结果变量有关的变量被排除掉了。Heckman (1976, 1979)将选择过程视为截断问题，并用inverse Mills ratio这一变量来解决这一选择偏倚。Antonakis等人(2010)也明确指出遗漏选择变量是管理学研究中内生性偏倚的重要因素。

选择导致的内生性问题包括两种形式：样本选择偏倚，以及自我选择偏倚。样本选择偏倚就是由于选择的样本无法代表真实群体，因此影响内在和外在的有效性。在自我选择问题中，偏倚是由于研究人员根据不可观测变量来分配实验组和控制组，且该不可观测变量与结果和可观测预测量相关。例如，员工品质对于研究者而言是不可观测的，因此测量估测培训课程参与情况与管理者未来工资的关系的参数就会影响培训项目的选择过程。自我选择问题影响了管理学研究的内部有效性，因为决策、过程、培训、投资方式、战略以及其他不连续商业现象都不是随机选择的，而是管理者根据心里的结果选择的。

之前的很多文献也提出了自我选择对研究结果的影响。Shaver (1998)首次发现公司的战略选择是依据贡献以及可能的结果，也因此组织结构决策是内生且自我选择的。Hamilton和Nickerson (2003)也指出管理学研究深受自我选择内生性的影响，因为管理决策是根据未来可能表现影响的，即管理者不是随机进行组织决策的。因此，决策的未来可能表现影响了最终决策，遗漏变量也从而影响组织决策以及表现结果，导致偏倚。但Hamilton和Nickerson (2003)对《战略管理期刊》1990-2001的调查中发现，研究人员普遍忽视了选择效应和内生性问题。在他们之后，基于选择效应的内生问题才逐渐受到关注。

尽管很多研究都在尝试解决选择偏移，他们的估测方法缺陷导致了结论的不准确。作者通过调查以往文献发现，许多研究采用的估测方法由于没有指定选择方程的独特结构而导致无法准确识别出选择方程。即使制定了制定了这些识别变量，研究者也没有阐述该识别假设的合理性，即为什么这些变量影响了选择但不存在与主要方程中。这些研究没有展示Heckman程序或选择方程的结果，也因此无法准确识别选择效应。

作者通过回顾2014年在《战略管理期刊》以及《行政科学季刊》上发表的所有文章发现，基于宏观和围观的学是研究倾向于忽略自我选择偏倚的存在。因此正确解决自我选择偏倚问题，对战略管理领域的发展有着重要意义。

那么，为什么管理学文献对于纠正选择效应产生的内生性问题的尝试不足且不一致呢？首先，管理学文献提倡不同方法的使用，导致研究人员不确定那种方法适用于某一研究背景。其次，这些文献没有指出其他处理选择偏移方法的利弊，再次导致解决方法的不确定性。

3. 基于自我选择的内生性问题

选择效应导致的内生性问题分为两种：样本选择偏倚以及自我选择偏倚。

3.1 样本选择偏倚

当研究者使用非随机选择样本来估测因果关系时，就会产生样本选择偏倚，即数据构建过程中存在不随机性。

产生原因：

· 观测单位做决策时，某一群体的一部分不可观测

· 可观测数据的样本设计分析人员和数据处理人员的一些选择

文献举例：Heckman (1974)

对女性教育回报的估测涉及到了样本选择偏倚，因为只观测了就职女性的工资。然而决定是否工作显然是内生的，可能受到某些同样影响个人工资且被忽视的因素的影响。因此，该选定样本中对教育回报的估测是有偏倚的，且无法代表整个女性群体的平均教育回报。

3.2 自我选择偏倚

当观测数据的主体没有被随机分配到实验组时，自我选择偏倚就会产生。由于不随机分配，非实验组的主体无法充分代表实验组的对立面，实验组的主体可能由于其他可观测和不可观测变量而区别于非实验组，这些不可观测变量就会导致估测偏倚。

产生原因：

当因变量在不同子样本中被观测，但子样本的分配过程不随机时，就会产生自我选择偏倚。

文献举例：Lee (1979)

在研究工会主义对工资的影响时，工资数据包括公会人员和非工会人员（没有样本选择偏倚）。但是否选择加入公会的决定是内生的，受到不可观测变量（如智力，人际关系等）的影响，且这些变量也会影响工资。Lee认为，在这种情况下，“决策是基于其他选择下的可能结果，二观察到的结果是决策过程的最终结果。因此，决策与结果是相关的。”

3.3 小结

Heckman (1979)指出，在选择偏移存在时，研究人员经常发现，当变量结构实际上属于选择方程时，它们在主要方程中就会显著。因此，当研究人员将所有影响最终因变量和实验组选择的变量都包括进去时，系数不偏倚的估测量就会导致方程的过于具体化。但是包含所有相关变量是很困难的，并且任何影响误差项且与实验相关的遗漏变量都会直接影响因果关系的有效性。因此这里的遗漏变量不仅仅影响误差项且与因变量和自变量相关，还应该存在于选择过程本身。选择效应对系数的影响方式是多变的，实验效应的膨胀、收缩，甚至符号变化都是有可能的。并且不仅选择过程中估测量的系数会改变，选择效应也会对其他自变量产生负面的溢出效应。

4. 基于选择效应的内生性问题解决方法

4.1 样本选择偏倚

Heckman (1974)

步骤一：采用可以预测实验组选择的工具变量，即该工具变量可以估测正确的选择方程。

步骤二：使用inverse Mill’s ratio，以捕获观察到结果的可能性，即包括了可观察到结果和不可观察到结果的样本之间的差异。

但由于inverse Mill’s ratio是一个估测量，第二步OLS估测的协方差矩阵会不一致。因此，使用这一方法的关键是考虑协方差矩阵的正确估算。

三种模拟条件：

· 样本大小（小/大）

· 工具变量强度（弱/强）

· 误差项分布假设（二元正态/非正态）

模拟结构如下图

5.2 内源处理

系数假设：

结果：

系数假设：

结果：

类似样本选择的内源转换模型

· OLS法

o 强工具变量+二元正态分布误差项/强工具变量+非正态分布误差项/弱工具变量+二元正态分布误差项：无论样本大小，x2i和zi的系数都显著偏倚。

· 最大似然估计（LIML&FIML）

o 无论样本大小，两种方法都显著减小了偏倚。

o 强工具变量+二元正态分布误差项：FILM法估测值的平均标准差比LIML小，符合FIML的有效性。

o 强工具变量+非正态分布误差项：LIML法比FIML法更准确。

o 弱工具变量+二元正态分布误差项：总的来说，FIML法更准确。当样本较小时，FIML相对LIML的优势比较模糊（zi=0时，LIML估测值更准确，但zi=1时FLML更准确）。因此只有当样本足够大时，FIML法的优势才会明显。另外，FIML法的平均标准差更小。

完全内源转换模型（联立内源转换步骤）

· FIML法

o 无论样本大小、工具变量强弱，FIML估测值均十分接近真实值。但当误差项非正态分布时，应使用LIML法。

o 平均标准差比在类似样本选择的内源转换模型里的小，证明联立法得到的结果更精确。

小结：在类似Heckman 样本选择模型中LIML估测值的符号与真实值一致。而在研究中，通常比较重要的部分是选择项的符号以及显著性。但是当弱工具变量存在或样本较小时，研究人员可能由于选择项偏倚而无法明确效应，或由于较大的标准差而导致选择项估测值不精确。在使用FIML估测法时（类似Heckman 样本选择模型，以及内源转换回归模型），首先平均来讲，相关性系数ρ偏倚，尽管该偏倚很小，且绝对比估测方差的偏倚小。其次，在强工具变量以及误差项二元正态分布情况下，FIML表现十分出色。第三，不像LIML，即使在弱工具变量且误差项二元正态分布的情况下，FIML对相关性系数的平均估测值也很显著。只有在误差项非正态分布的情况下，FIML法才不适用。

6. 总结

组织决策中的选择不是一个随机的过程，而是管理者为了增强组织成果而采取的内生过程。管理学研究经常基于可观测数据，讨论这些不连续的组织选择对结果的影响，但同时影响组织决策和结果变量的不可观测变量导致了基于自我选择的内生性问题。

作者首先强调了选择的内生性对组织决策的重要性，忽视内生性问题会导致结果偏倚且不一致，进而导致因果关系不明确，无法形成充分的理论和管理学结论。另外，作者展示了在内源处理和内源转换存在的情况下，OLS法的不足。除了明确正确纠正基于选择的内生性问题这一目标，研究人员还需要知道这些内生性偏倚的来源。管理人员的自我选择意味着遗漏变量的存在。在大部分的管理学应用中，组织决策都是不连续的，因此研究人员还需要准确将这一不连续过程建模，以解决选择效应。

鉴于选择偏倚是内生性偏倚的一个分支，管理学研究人员一直在关注如何使用工具变量解决这一问题，但很多研究中的工具变量并不是完全外生的。弱工具变量也是一个问题，并且可能导致更大的偏倚。另外，工具变量的选择也不明确，选择方程的估测并没有被展示出来。因此作者建议在研究中重点关注选择方程的确立。

作者还发现，只有在强工具变量条件下，IV-2SLS法才可以有效解决偏倚问题。使用近似线性来为不连续处理变量建模也会导致估测不准确问题。因此，研究人员应该慎重选择解决内生性问题的估测模型。本文重点强调了基于自我选择的内生性问题，分为内源处理（回归线的平移）以及内源转换（回归线的斜率变化）。

通常来说，选择模型为Probit model，且误差项成正态分布，通过最大似然法得到估测值。作者主要讨论了LIML和FIML法的选择。LIML法更具有鲁棒性，但不如FIML法有效。FIML法渐进有效，但只有在选择方程和实质方程误差项均二元正态分布的情况下有效，但这一限制条件随着样本数量变大而逐渐宽松。因此，当样本数据较小时，LIML法更适用。另外，作者建议研究人员明确选择LIML/FIML的原因，即讨论两种估测值的利弊，并且同时展示两种估测值的结果。

就内生性问题及其解决方法，咱们为各位学者引荐了很多文章，例如：看完顶级期刊文章后, 整理了内生性处理小册子；1.“内生性” 到底是什么鬼? New Yorker告诉你；2.Heckman两步法的内生性问题(IV-Heckman)；3.IV和GMM相关估计步骤，内生性、异方差性等检验方法；4.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题；5.毛咕噜论文中一些有趣的工具变量！；6.非线性面板模型中内生性解决方案；7.内生性处理的秘密武器－工具变量估计；8.内生性处理方法与进展；9.内生性问题和倾向得分匹配；10.你的内生性解决方式out, ERM独领风骚；11.工具变量IV必读文章20篇, 因果识别就靠他了；12.面板数据是怎样处理内生性的；13.计量分析中的内生性问题综述；14.工具变量IV与内生性处理的解读；15.一份改变实证研究的内生性处理思维导图；16.Top期刊里不同来源内生性处理方法；17.面板数据中heckman方法和程序(xtheckman)；18.控制函数法CF, 处理内生性的广义方法；19.二值选择模型内生性检验方法；20.2SRI还是2SPS, 内生性问题的二阶段CF法实现；21.内生变量的交互项如何寻工具变量；22.工具变量精辟解释, 保证你一辈子都忘不了。

关于工具变量，可以参看如下文章：1.内生性问题操作指南, 广为流传的22篇文章，2.看完顶级期刊文章后, 整理了内生性处理小册子，3.如何寻找工具变量？得工具者得实证计量，4.内生性处理的秘密武器－工具变量估，5.工具变量在社会科学因果推断中的应用，6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例，7.没有工具变量、断点和随机冲击，也可以推断归因，8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析，9.工具变量IV与内生性处理的精细解读，10.我的"工具变量"走丢了，寻找工具变量思路手册，11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性，12.豪斯曼, 拉姆齐检验，过度拟合，弱工具和过度识别，模型选择和重抽样问题，13.工具变量先锋 Sargan，供参考，14.AEA期刊的IV靠不靠谱？，15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom，16.GMM是IV、2SLS、GLS、ML的统领，待我慢慢道来，17.IV和GMM相关估计步骤，内生性、异方差性等检验方法，18.因果推断IV方法经典文献，究竟是制度还是人力资本促进了经济的发展？，19.内生变量的交互项如何寻工具变量, 交互项共线咋办，20.面板数据、工具变量选择和HAUSMAN检验的若干问题，21.IV和Matching老矣, “弹性联合似然法”成新趋势，22.IV回归系数比OLS大很多咋回事, 怎么办呢? 23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献，24.找不到IV, RD和DID该怎么办? 这有一种备选方法，25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS，26.内生性, 工具变量与 GMM估计, 程序code附，27.GMM和工具变量在面板数据中的运用，28.关于工具变量的材料包, 标题,模型,内生变量,工具变量，29.必须使用所有外生变量作为工具变量吗？30.工具变量精辟解释, 保证你一辈子都忘不了，31.毛咕噜论文中一些有趣的工具变量！32.为你的"工具变量"合理性进行辩护, 此文献可以作为范例，33.内生变量的交互项如何寻工具变量, 交互项共线咋办，34.前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析，35.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了！

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施！

1. 摘要

2. 基于选择效应的内生性问题

3. 基于自我选择的内生性问题

3.1 样本选择偏倚

3.2 自我选择偏倚

3.3 小结

4. 基于选择效应的内生性问题解决方法

4.1 样本选择偏倚

5.2 内源处理

6. 总结

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施！

1. 摘要

2. 基于选择效应的内生性问题

3. 基于自我选择的内生性问题

3.1 样本选择偏倚

3.2 自我选择偏倚

3.3 小结

4. 基于选择效应的内生性问题解决方法

4.1 样本选择偏倚

5.2 内源处理

6. 总结

您可能也对以下帖子感兴趣