查看原文
其他

控制变量! 控制变量! 控制变量!

计量经济圈 计量经济圈 2023-01-25

凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

推荐一份超级大礼包资源, 里面有丰富的Stata学习材料, 写文章作报告找工作的指南134篇各种方法的code, 代码和程序文章合集, 必须收藏!今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习!《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章!CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究!

控制变量对回归分析的扰动

正文

关于下方文字内容,作者:房晨, 北京大学环境管理,通信邮箱:fang@pku.edu.cn

On the Nuisance of Control Variables in Regression Analysis, 2022, https://arxiv.org/pdf/2005.10314.pdf
Control variables are included in regression analyses to estimate the causal effect of a treatment on an outcome. In this article, we argue that the estimated effect sizes of control variables are unlikely to have a causal interpretation themselves though. This is because even valid controls are possibly endogenous and therefore represent a combination of several different causal mechanisms operating jointly on the outcome, which is hard to interpret theoretically. We recommend to refrain from reporting marginal effects of controls in regression tables and to focus exclusively on the variables of interest in the results sections of quantitative research papers. Moreover, we advise against using control variable estimates for subsequent theory building and meta-analyses.

控制变量对回归分析的扰动

一、摘要

在回归分析中,控制变量常用以估计某种处理(Treatment)对结果产生的因果效应。本文认为,用来估计效应大小的控制变量本身不太可能有一个因果判断。因为即使是有效的控制也可能是内生的,代表了几种不同的因果机制共同作用于结果的组合,而这在理论上很难解释。本文建议不要在回归表格中报告控制变量的边际效应(Marginal Effects),定量研究结果中应只关注研究者感兴趣的变量。此外,本文建议不要在后续的理论构建和荟萃分析(Meta-Analyses)中使用控制变量进行估计。

二、引言

多元回归分析是管理、组织研究和经济学等实证研究的重要工具。这些方法通过纳入一组控制变量来混淆处理对结果的影响,从而获得一致的因果效应的估计。尽管他们在因果推断中十分重要,但在实践中,学者往往夸大控制变量在回归的作用。在本文中,我们认为,尽管对于因果效应的识别是必要的,但控制变量本身一般并没有结构性的解释。这是因为即使是有效的(Valid)控制变量也往往与其他未观察到的因素相关,这使得它们的边际效应从因果推断的角度无法解释(Westreich and Greenland, 2013; Keele et al., 2020)。因此,研究人员需要警惕赋予控制变量太多的意义,在解释他们的分析结果时也应当忽略他们。
然而,从控制变量的估计中得出实质性结论是很常见的。作者经常使用这样的表述:“控制变量有预期的迹象……”或“值得注意的是,我们的控制变量的系数……”。根据过去五年在《组织科学》(Organization Science)与《战略管理杂志》(Strategic Management Journal)上发表的文献综述的结果,其中47%使用了回归方法的论文也明确讨论了控制变量的估计效应大小。这与Carlson和Wu(2012)的观点一致,他们发现,在2007年《管理学会杂志》(Academy of Management Journal)、《应用心理学杂志》(Journal of Applied Psychology)和《战略管理杂志》(Strategic Management Journal)上发表的论文中,有48%解释和讨论了控制变量的效应。此外,根据我们自己作为定量研究论文作者的经验,我们经常遇到审稿人要求我们提供对控制变量系数的解释情况。人们经常提出的理由是,尽管控制变量不是分析的重点,但它们仍然可以为该领域正在研究相关问题的其他研究人员提供有价值的信息。
与组织研究的方法论相关的论文献通常强调,在实证分析中,控制变量应该与主要自变量一样重要(Becker, 2005; Spector and Brannick, 2011; Carlson and Wu, 2012; Atinc et al., 2012)。为了提高已发表研究论文的严谨性和透明度,Becker (2005)建议实证结果应汇报控制变量的所有回归系数及其显著性水平。同样地,Spector和Brannick (2011)主张控制变量应该在分析中被赋予与主要治疗变量同等的地位。Atinc et al. (2012) 认为基于理论提供控制变量和因变量之间关系的事前(Ex-ante)预测是最好的做法,随后应该根据实证结果进行验证。在最近的一篇论文中,Becker et al. (2016) 提出了一个更为谨慎的建议,即如果涉及样本外推,那么就应当考虑控制变量估计,但在其他情况下可以不这么做。
总的来说,无论是在方法论研究还是实证研究,文献的普遍共识似乎是报告和解释控制变量估计是安全的。接下来,本文将解释为什么这是不一定对的。本文解释了这样一种观点,尽管在许多因果推断研究中无疑是一个重要因素,但控制变量在实证分析中并不具有与研究者感兴趣的主要自变量相同的地位。特别地,在许多情况下,有效的控制(从而能够允许可靠的因果效应识别),但仍然可以是内生的(Endogenous)。因此,根据先验理论解释它们的估计效应大小可能导致潜在的误导性结论。对控制变量的有效因果解释依赖于强有力的假设,通常需要考虑研究中对结果变量造成影响的所有因素。由于这在许多研究中不太可能实现,本文建议从回归表中省略控制变量的估计系数,或者将它们放在附录中。最后,我们讨论我们的建议对荟萃分析意味着什么,荟萃分析最近在包括组织研究在内的许多领域获得了关注 (Aguinis et al., 2011)。

三、研究人员是否赋予了控制变量实质性的意义?

为了评估研究人员在他们的研究中解释控制变量估计的程度,我们对2015年1月至2020年12月期间发表在《组织科学》(Organization Science)与《战略管理杂志》(Strategic Management Journal)上的所有文章进行了汇总。之所以选择这两本杂志,是因为它们在组织和管理领域享有很高的声誉,以及它们在高质量实证研究方面的声誉。我们的样本包括所有使用参数回归模型(如OLS、logit、probit、Poisson等)的定量文章。这种选择是因为在非参数和半参数模型中,控制变量的效应大小通常不能用单个系数(或边际效应)来概括。然而,这些方法的使用在我们的样本中其实也并不常见。
本研究根据论文是否对控制变量的系数或边际效应估计进行解释或从中得出实质性见解对其进行了手动编码。这种解释例子的范围从“首席执行官任期这一控制变量与业绩呈正相关”“控制变量的效应大小与以前的研究一致”。后一种解释具有相关性,因为未来研究论文的作者可能会倾向于在这种积累的实证经验基础上发展理论。本文的综述结果显示,解释控制变量在期刊中是常见的做法。对于《战略管理杂志》,我们确定了总共497篇定量研究文章,其中233篇(47%)接着解释控制变量的影响。对于《组织科学》来说,在总共274篇定量文章中,有130篇(47%)提供了对控制变量估计的解释。文献综述的详细结果见附录。

四、控制变量的结构性解释

回归中主要解释变量和控制变量之间的关系可能是复杂的,因此在因果图(Causal Diagram)中明确地描述它们是有用的(Pearl, 2000)。Durand和Vaara(2009)是第一个将因果图引入管理文献并阐明其作为实证研究工具的有用性的学者。

图1 有效控制变量Z1的因果图示例

后门路径被定义为,当处理变量发出的箭头从图中删除后,因果图中连接处理变量和结果变量的任何箭头组合形成的路径(无论其方向如何)(Pearl, 2000)。它们很容易在因果图中找到。因为X发出的所有箭头都被删除了,所以后门路径必须指向X;也就是说,它们“通过后门”输入,这就是这一名称的来源。

五、例子

为了用一个实际的例子来说明前面的观点,我们分析Azoulay等人最近发表的一篇论文(2021)。他们调查了职业生涯早期接触前沿研究对潜在创新者职业轨迹的影响。他们具体的实证策略是美国国立卫生研究院(National Institutes of Health, NIH)的联合培训计划(Associate Training Program, ATP)。ATP成立于1953年,是为新近毕业的硕士生提供的一个培训项目。参与者被送往位于马里兰州贝塞斯达的NIH校园内,在NIH调查人员的监督下接受两到三年的研究培训。由于NIH最初是在海军陆战队医院服务中建立的,参与该计划履行了应征者的兵役义务。因此,在越南战争期间(1965-1975),参与ATP在年轻医生中变得特别流行。

在第一轮筛选后,申请人被邀请参加NIH的校内面试,以确定谁最终将被选中参加该项目。选择标准与申请人以前的研究活动(Azoulay 等人通过参与ATP之前的出版物数量来衡量),他们的学术成就(以他们是否被选入荣誉医学会衡量),经验(他们在申请时是否拥有博士学位以及他们的实习次数)以及申请人接受培训的机构的声誉(通过NIH对申请人的医学院和实习医院的补助金来衡量)。重要的是,Azoulay等人认为,尽管ATP的申请人确实是一个高度选择的群体,在第二轮的面试阶段的选择完全基于这些可观察到的特征。应聘者在职业生涯早期的特征比较单一。因此,除了一些可观察到的特征之外,很难根据它们未来的研究潜力来选择它们。这种特别的机制设置特点允许Azoulay等人采用“基于可观测特征的选择”的实证设计(Election-on-Observables Design)。基于这一点,他们估计,ATP的参与者日后从事研究型职业的可能性是不成功申请者的两倍。因此,学员在他们的一生中积累了更多的出版物、引文和赠款资金。此外,他们更有可能获得著名的职业荣誉,包括诺贝尔奖,并成为国家科学院的成员。

图2 Azoulay et al. (2021)中实证策略可视化的因果图

图2以因果图的形式综合了Azoulay等人研究中实证策略的假设。控制申请者以前的研究活动,学术成就,经验和学校声誉(作者为这些维度中的每一个都引入了若干协变量,包括医学院和实习医院的固定效应在内)是一个有效的后门调整集,用以估计ATP参与对选择从事研究职业的因果效应。分析关键取决于假设未观察到的(潜在的)变量,研究潜力(Research Potential)并不直接影响项目参与(ATP参与研究潜力);即面试官无法根据个人的私人信息挑选申请人。Azoulay等人采用了逆概率加权估计(Austin and Stuart, 2015)。因此,协变量仅用于估计接受处理的倾向得分,而不出现在结果回归中。然而,在这种情况下,解释控制变量(如先前的研究活动)对职业选择的影响也是不可取的。潜在的节点研究潜力共同影响了申请人先前的研究活动和未来的职业选择。因此,虽然先前的研究活动是ATP参与效应的有效控制,但它也是内生的,类似于图1b中的情况。因此,即使我们发现以前的研究活动和追求研究职业之间存在正相关(Azoulay等人的研究中没有报道),得出这样的结论还为时过早,例如,在医学院期间早期的成功发表是随后职业选择的重要驱动因素,因为这两个变量都可能被申请人的整体能力所混淆。研究设计只允许得出处理自变量“是否参与ATP”的政策结论。因此,研究人员应该小心不要过度解释他们的实证结果,即使这有望为一个特定的研究课题提供有趣的额外观点。

六、讨论和建议

给有偏控制变量的边际效应赋予实质性意义是有问题的,因为研究人员可能产生错误的直觉或根据这些直觉得出错误的有关管理和政策的结论。因此,最好不要在定量论文中讨论控制变量的结果,除非研究者可以确定他们已经在回归中解释了与结果变量相关的所有影响因素(all-causes regression)。由于在许多实际情况下这不太可能,我们建议将控制变量作为冗余参数(nuisance parameters)处理,这些参数包括在识别目的的分析和讨论中,但是它们的影响并不在输出表中报告(Liang和Zeger, 1995; Meehl, 1971)。这和通过非参数匹配估计量(Heckman et al., 1998)和现代机器学习技术处理高维控制变量的方式(Chernozhukov et al., 2018)相吻合。这些方法也不报告与控制变量相关的估计结果,或者是因为分析中会有太多的协变量(这是机器学习的主要用例Primary Use-Case),或者控制变量的边际效应值甚至不会由估计协议(Estimation Protocol)返回(如在匹配情况下)。
因此,我们的建议与以前的文献不同,为我们认为控制变量不应该被提升为与研究中其他变量具有同等地位(Spector and Brannick, 2011, p. 297)。基于控制变量的研究设计被用来估计处理变量对结果的因果效应。因此,处理变量(自变量)不能是内生的,否则估计将是有偏的,此时需要应用其他更合适的研究设计(如工具变量,断点回归等)。相比之下,控制变量可以是内生的(Fr olich, 2008),并且,正如我们在前面的理论讨论中展示的那样,在实践中控制变量很可能是内生的。根据研究背景的理论模型(Bono and McNamara, 2011),应该选择控制变量来关闭处理变量和结果变量之间的所有后门路径。正如我们以前所证明的,因此没有必要将结果变量的所有影响因素都包括在回归中。我们的例子(Azoulay et al., 2021)说明,在许多情况下,比较影响结果的大量潜在变量和决定是否接受处理的变量,研究者对后者所拥有的知识一般更丰富,那么实际上可能更容易控制处理的分配机制。此外,在许多情况下,研究者可以选择不同的有效调整集(参见图1d),这突出了它们对分析的辅助性质。
由于在许多情况下,考虑结果的所有影响因素可能是不现实的,而且控制变量因此很可能是内生的,根据理论解释它们的影响大小有着潜在的危险。作者可能会为了提供管理学的建议推断出错误的结论,随后的研究则可能倾向于基于有偏的实证结果建立理论。为了避免这种情况,我们因此建议不要在已发表的论文中解释控制变量。此外,如果内生的控制变量能够受多种其他影响因素的影响,预测事前估计的控制变量信号就很困难(Atinc et al., 2012)。因此,诸如“控制变量的估计具有预期征兆”(estimates of control variables have expected signs)之类的表述应避免使用。作为一种推动,促使研究团体不要过度解释控制变量的估计,不要在回归表中报告它们,或者至少把它们放在附录中,似乎是合适的。我们强调,我们同意Becker(2005)的控制变量应该仔细讨论研究者需要基于先验理论证明他们的有效性。然而,它们的估计系数相关性较小。我们认为,如果在实证部分讨论了选择特定控制变量的理由,并且在回归表格中包含对列入这些变量的说明,这就足够了。
因此,我们的建议是符合Westreich and Greenland(2013)的研究,其中讨论了一个类似的问题,即在流行病学潜在的内生控制变量如何解释。由于流行病学研究通常会在数据描述性统计的表格之后立即提供多元回归分析的结果,因此他们创造了“表2谬误”(table 2 fallacy)这个术语。Keele等人(2020)讨论了政治科学领域中的相关例子。他们强调,为了对控制变量的估计值给出因果解释,它们的影响需要自行进行因果识别。由于这只有在没有遗漏变量(或控制变量与遗漏变量无关)的情况下才是合理的,因此我们建议研究人员一次将注意力集中在一个因果变量(或一个小集合)上,其后门路径可以实际地被枚举,并且将控制变量作为讨厌的冗余参数。
最后,我们警告不要在荟萃分析(Meta-Analysis)中包括对潜在偏倚的控制变量系数的估计值(Aguinis et al., 2011)。这样的分析汇集了多项研究中某一焦点变量对结果的影响。根据Becker(2005)的研究,对控制变量的系统报告可以显著增加研究池(the Pool of Studies),从中可以得出荟萃分析的效应大小,促进了科学的积累和知识的聚合。然而,这种观点忽略了控制变量本身不太可能有因果解释。相比之下,它们的系数代表了几种不同因果机制的组合,因此不能提供在理论上有意义的定量准确信息。此外,系数可能会根据使用哪个可接受的调整集而有很大的不同(参见图1d中的示例)。因此,荟萃分析应限于主要的处理变量,为此可以建立一个合理的因果识别论点,这再次突出了处理变量和控制变量在回归分析中的不平等地位。
总之,如果控制变量的估计系数没有预期的符号,并没有理由担心,因为在实际应用中它们很可能会是有偏的。相反,研究人员应该把重点放在解释他们研究中感兴趣的主要变量的边际效应上。相比之下,对控制变量的估计结果几乎没有实质意义,因此可以安全地省略,或者归入附录。这种方法不仅可以防止研究人员根据内源性控制得出错误的因果结论,而且还可以进一步简化定量研究论文的讨论部分,节省宝贵的稿件空间。
表3 使用不同可变调整集的回归结果
长按以上二维码即可下载原文PDF
关于回归中变量的问题

1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?,35.回归中常数项显著说明模型中有遗漏变量问题?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存