因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢？

Original 计量经济圈计量经济圈 2022-05-11

收录于合集 #计量圈控制变量 8个

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

下面这篇文章作者David Bartram为一知名期刊的主编。据社群群友陈述，他在向该期刊投稿时，曾被David Bartram无情desk reject，理由是他没有查看该主编发表的最新文章中关于控制变量选择问题。从这位群友的经历，我们学到的经验教训是，无论何时何地都需要第一时间掌握期刊主编、副主编最新文章动向，不然在投稿过程中很吃亏。

正文

关于下方文字内容，作者：刘颖杰，北京师范大学统计学院，通信邮箱：15011027040@163.com

＊读完这个之后，建议可以看看文后附上的二维码里的原文PDF

Bartram, D. Cross-Sectional Model-Building for Research on Subjective Well-Being: Gaining Clarity on Control Variables. Soc Indic Res 155, 725–743 (2021). https://doi.org/10.1007/s11205-020-02586-3
Happiness/well-being researchers who use quantitative analysis often do not give persuasive reasons why particular variables should be included as controls in their cross-sectional models. One commonly sees notions of a “standard set” of controls, or the “usual suspects”, etc. These notions are not coherent and can lead to results that are significantly biased with respect to a genuine causal relationship.
This article presents some core principles for making more effective decisions of that sort. The contribution is to introduce a framework (the “causal revolution”, e.g. Pearl and Mackenzie 2018）unfamiliar to many social scientists (though well established in epidemiology) and to show how it can be put into practice for empirical analysis of causal questions. In simplified form, the core principles are: control for confounding variables, and do not control for intervening variables or colliders. A more comprehensive approach uses directed acyclic graphs (DAGs) to discern models that meet a minimum/efficient criterion for identification of causal effects.
The article demonstrates this mode of analysis via a stylized investigation of the effect of unemployment on happiness. Most researchers would include other determinants of happiness as controls for this purpose. One such determinant is income—but income is an intervening variable in the path from unemployment to happiness, and including it leads to substantial bias. Other commonly-used variables are simply unnecessary, e.g. religiosity and sex. From this perspective, identifying the effect of unemployment on happiness requires controlling only for age and education; a small (parsimonious) model is evidently preferable to a more complex one in this instance.

构建横截面模型研究主观幸福感：清晰选择控制变量

使用定量方法分析幸福感的研究者往往没有给出有说服力的理由，为什么特定变量应该作为控制变量出现在由横截面数据构建的模型中。

此文介绍了一些有效选择控制变量的核心原则，贡献是引入因果框架，并展示如何将其应用于因果问题的实证分析。简化后的核心原则是:控制混杂变量，不控制中间变量和对撞变量。更全面的方法是使用DAGs来选择用于因果效应识别的控制变量。

然后通过失业对幸福感的影响的例子来演示这种分析模式。大多数研究人员会将其他决定幸福感的因素加入到控制变量中，其中一个决定因素是收入——但收入是从失业到幸福这条路径上的一个中介变量，将其包括在内会导致严重的偏差，且其他常用的控制变量都是不必要的，例如宗教信仰和性别等。最终研究表明：确定失业对幸福的影响只需要控制年龄和教育程度。

二、引言

在很多社会科学的研究中，研究者没有清晰给出选择控制变量的理由，研究人员和统计学家在很长一段时间内也一直非常困惑，不知道应该把什么作为控制因素。近年来，通过一场因果革命，清楚地说明将特定变量作为控制变量的原因：与确定因果关系有关，是潜在的混杂因素（如图a所示）。

此文主要通过一个简单的例子进行介绍。没有使用详细的数学推导，而是使用因果图来表示因果模型，明确变量之间的关系。

此文提出的论点适合于横截面数据的分析。

变量关系:

在a中，控制W可以减少偏差

在b中，不能控制W，如果控制会加大偏差

在c中，没必要控制W，控制与否对结果没什么影响

三、样例

数据：英国欧洲社会调查(ESS)，第五轮至第八轮调查数据

核心变量：幸福感（由11个分值组成，0表示极度不快乐，10表示极度快乐) 和失业状况

其他变量：性别、年龄、年龄平方、伴侣地位、宗教信仰、教育程度和收入

模型：OLS

变量关系：年龄与教育程度是混杂变量

收入与伴侣地位是中介变量

性别与宗教信仰是不相关变量

回归结果：

Model 1: 单变量回归，失业会降低幸福感0.68分，作为一个比较基准。

Model 3: 加入混杂变量年龄、教育程度，失业会降低幸福感0.66分。

因果效应不可能朝相反的方向发展，失业不能决定一个人的年龄；教育程度也类似，大多数人在获得重要的就业市场经验之前就完成了学业。

Model 2: 加入混杂变量年龄、教育程度与不相关变量性别，失业会降低幸福感0.66分。失业不能决定性别，性别是无关变量。

Model 5: 加入混杂变量年龄、教育程度与不相关变量宗教信仰，失业会降低幸福感0.66分，结果与Model 2一致。同样失业不能决定宗教信仰，也是一个无关变量。

Model 4: 加入混杂变量年龄、教育程度与中介变量收入，失业会降低幸福感0.37分。

失业会降低收入，从而降低幸福感，但失业也直接影响幸福感。如果说失业会降低幸福感0.37分，这是错误的。失业对幸福感的影响包括随之而来的收入损失，收入损失会降低幸福感。如果控制收入，就会在估计中忽略这种间接影响。

Model 6: 加入混杂变量年龄、教育程度与中介变量伴侣，失业会降低幸福感0.52分。

如果与伴侣生活在一起的人有更大(或更小)的可能失业，那么伴侣应该作为混杂变量被控制。

如果对失业和伴侣之间的关系理解为失业有时会导致伴侣关系破裂,那么伴侣变量不应被控制，此时伴侣变量会干预从失业到幸福感的路径,控制的话会忽略由于伴侣关系破裂而导致幸福感降低的间接影响。

结论：只需要控制混杂变量，年龄和教育就可以得到相应的因果关系，控制其他变量会导致结果有偏差。

四、更系统的路径

方法：Pearl后门准则

将变量的关系绘制成如下DAGs图，可以清楚的看出变量间的关系，从而阻断后门路径，选择合适的控制变量(B,C)或者（C,E），就可以得到X到Y的正确因果关系。

控制C，可以阻止后门路径X -C- Y(C是一个混杂变量)。因为C是路径X -B-A- C- D- E-Y上的对撞变量，控制它可以解除路径阻塞，但也可以通过控制B或E来阻断这条路径。一个足以识别X对Y影响的变量组合是(B, C)或(C, E)。

五、结论-关于控制变量选择的原则

1.控制变量的选择不仅要考虑是否为结果的其他决定因素，还要考虑与核心解释变量的关系

2.干预从自变量到结果路径的变量必须从模型中省略

3.需要特别注意的是，可能同时作为混杂变量和中间变量的潜在控制变量，进行选择时要考虑决定关系在一个方向上比在另一个方向上更重要

4.如果选择一个变量作为控制变量是有意义的(即相对于核心变量而言是混杂变量)，那么它的系数不能被解释为因果关系的总效应.如果变量被正确地选择为一个核心变量的控制变量，那么这个变量总是会干预从控制变量到结果的路径，因此，控制变量的系数不能是一个总效应。

5.DAGs是以上原则的一种有用表示，有效地传达了构建分析模型所涉及的特定决策所需的信息。当对建模假设有足够清晰的认识时，它们就会起作用，但它们也可以作为一个信号，表明我们还没有达到足够清晰的程度来进行实证分析。

六、阅读小结

控制变量的选择是需要极其小心的，必须有足够的经济理论与文献支撑。此文重点分析了不同种类的变量作为控制变量所带来的结果变化情况，提供了一个实证分析样例。

因果图是分析变量之间关系的一个有效手段，阻断后门路径涉及复杂的推导，该文只是给出了一种利用DAGs进行控制变量选择的方法框架，其中具体细节需要自己完善。

关于回归中变量的问题

1.什么时候应该使用回归分析？控制变量意味着什么？2.如何选择正确的因变量(控制变量)，让你的计量模型不再肮脏，3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量，系说，5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了？6.被解释变量比解释变量的层级更高的模型设定合理么？7.审稿: 协变量何时重要? 哪个重要, 有多重要？8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系，9.因果推断专题：6.再谈混淆变量，10.什么时候需要标准化回归模型中的变量？11.因果推断专题：1.混淆变量，12.虚拟变量回归模型是什么? 政策评估的前件，13.11种与机器学习相关的多元变量分析方法汇总，14.回归中各变量的数值相差过大有事, 又有什么问题？15.哦, 不, 回归符号反了, 我们该怎么办？16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些？17.显著不显著的后背是什么, 非(半)参估计里解决内生性，18.在什么情况下多增加一个自变量后, 回归的R方会变小呢？19.控制变量选择问题: 如何鉴别好或不好的控制变量？附上14篇相关文章！20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来！21.如何选择合适的工具变量, 基于既有文献的总结和解释！22.如何选择合适的工具变量, 基于既有文献的总结和解释！23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来！24.社会网络计量经济学是什么？测度社会关系网中的同伴效应！25.社会网络分析最新文献和软件学习手册，26.添加一个新变量能使以前不显著的变量变得显著了？27.加入其他控制变量后, 估计系数的符号相反了？28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量？29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果，30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗？31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢？32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章！

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

中金跳楼女生诡异之处。

因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢？

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

中金跳楼女生诡异之处。

生成图片，分享到微信朋友圈

因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢？

您可能也对以下帖子感兴趣