学术活动｜讲座纪要李江因果推断之倾向值匹配与双重差分：回国后，科研人员的业绩更好吗？

Original 图书情报知识图书情报知识 2022-06-09

供稿｜倪珍妮司湘云

中国的科研环境，使得科研人员回国后的业绩变得更好了吗？针对该研究问题如何进行研究设计？如何寻找实验组和对照组？如何解决样本选择性偏差？如何解释二者之间的因果关系？研究问题背后的政策意义是什么？7月9日晚，“面向图情档研究问题的研究方法系列讲座（第一期）”第三讲邀请南京大学李江教授进行题为“因果推断之倾向值匹配与双重差分：回国后，科研人员的业绩更好吗？”的报告。讲座包括研究问题、研究设计、研究发现和政策意义四部分。

1 研究问题的提出

全球范围内科研人员流动越来越频繁，人才流动进入“brain circulation”，参与流动的人数越来越多，支持与反对流动的观点并存，影响流动的因素也复杂多样。与此同时，开放科学数据集提供了大量丰富的数据集可以进行人才流动的相关研究，例如Magacademic、APS、ORCID、PubMed、DBLP等。其中，ORCID开放数据集为本研究提供了很好的数据支撑。

将全球流动的关注点集中在中国之后，从科技政策的角度提出问题：中国的科研环境，使得回国的科研人员的业绩变得更好了吗？尤其是人才引进政策和科研评价政策，对科研人员的成长提供了多大的帮助？

2 研究设计

2.1 比较科研人员回国前后业绩的变化

从ORCID数据库选定2008至2017年间从海外回到中国并且在WoS中可以检索到出版记录的科研人员，获取其所有的任职记录和论文记录，并一一对应样本科研人员每一段任职经历中的具体产出。最终获得2425位研究人员（以青年学者为主），以及其所发表的37946篇收录于WoS数据库的文章。经过初步的假设检验，比较科研人员回国前后业绩的变化（第一重差分），发现来中国之后，青年学者的学术业绩显著提高。

然而该研究过程却面临很多问题：随着时间推移，业绩更好难道不是自然规律吗？抽样的回国科研人员正好是一批成果突出的研究人员呢？即使得到这个结论，可以归结为政策原因吗？

2.2 随机对照实验

如何解决本研究面临的问题呢？随机对照实验（randomized controlled trial, RCT）将研究对象随机分组，对不同组实施不同的干预，进而在这种严格的条件下对照效果的不同。该方法可以抵消已知和未知的混杂因素对各组的影响。随机对照实验是解决该问题的理想解决方案。

2.3 观察实验

随机对照试验方案显然不可行，可以选择替代方案，即观察实验的方法：将到中国来工作的科研人员视为干预状态，即treatment condition；将到其他国家工作的科研人员视为控制状态，即condition of control。

2.4 反事实框架

观察实验中出现了新的问题：如果科研人员没有来中国而是选择了其他国家工作，结果会怎样？如果没有发生A，结果会怎样，即为反事实。反事实框架的模型如下图所示：

在反事实框架下，使用平均干预效应的标准估计量（average treatment effect for the treated，ATT）来测度个体在干预状态下的平均干预效应，即表示个体i在干预状态下的观测结果与其反事实的差。本研究的平均干预效果是科研人员回国后的业绩减去假定这些科研人员没有回国的业绩。然而，反事实无法通过观测得到，替代方案是在控制组寻找相似的个体，以该个体在未干预状态下的观测结果作为替代来估计实验组个体在干预状态下的潜在结果（反事实）。

2.5 反事实框架下的选择性偏差

上述替代方案存在选择性偏差。何为选择性偏差 (selection bias)？见下图：

2.6 匹配

如何解决选择性偏差？一种解决方案是匹配 (Matching)，通过能够获取的属性，为实验组寻找一个“条件相当”的控制组，以探究实验处理带来的效应，其目的是模拟“随机对照试验”。通俗来说，本研究中的样本（回国和未回国的科研人员）应当在同一起跑线。

研究人员的学术年龄、性别、毕业院校、回国前的业绩等因素均可能对其回国后的业绩产生影响，研究者很难直接探索政策与科研人员回国后业绩两者之间的净效果。前述变量被称为混淆变量(confounding variable)。如何处理混淆变量？如下图：

2.7 倾向值匹配

如何解决混淆变量较多的问题？方法之一是倾向值匹配(propensity score matching)。

其中，倾向值 (propensity score) 指被研究的个体在控制可观测到的混淆变量的情况下受到某种自变量影响的条件概率。以选择用于匹配的变量为自变量，以“是否接受干预”为因变量进行logistic回归或者Probit模型，logistic函数或Rrobit模型计算出的分值就是倾向值。

本研究选择了8个混淆变量（是否刚毕业、发文总量、担任通讯作者的文章占比、学术年龄等），使用logistic回归模型计算倾向值，并设置距离阈值淘汰不符合要求的个案，通过平衡性检查后，最终样本包括543对（1086个）个案。

2.8 双重差分

通过倾向值匹配完成了第二重差分的构建。通过双重差分，消除了选择性偏差，能够分离出干预效应。

具体的双重差分(Difference in difference, DID)回归模型如图所示：

本研究中使用logistic回归建立双重差分模型，其中因变量为（跨国流动后）月均发文量是否提高、担任通讯作者的比例是否提高，解释变量为是否来到中国（treatment）。由于本研究只关注业绩有无提升，而不关注业绩提升多少，因此将因变量处理为0-1变量，而不是连续性变量。

3 研究发现

主要发现包括：回国后，科研人员的论文产量提升了，担任通讯作者文章比例上升了，即回国后科研人员业绩提高了；刚毕业的博士、来中国时间较早、上一次任职于发达国家、物理（类）学科的科研人员业绩提升更大。

结论是中国为回国的科研人员提供的科研环境对业绩提升有显著效果，让来中国的青年学者发表了更多论文。

本研究也具有一定局限性。

4 政策意义

回国后青年学者的学术业绩显著提升，可能是因为人才引进政策或者科研评价政策。究竟是哪个政策的影响？将科研评价政策指标视为第9个混淆变量是一个可行的思路。

此外，李江教授团队尝试将TOP期刊论文（Nature,Science,Cell,PANS）数量作为高水平研究成果的指标，再进行因果推断分析，但未发现显著的结果。t检验分析的结果表明，回国后该指标显著降低，但由于缺少因果推断的支撑，因此没有充足的理由认为该现象是中国科研环境导致的。

最后，参与讲座直播活动的4500多名师生踊跃提问，包括控制组与实验组的年龄分布、团队因素的影响、如何处理研究结果与期望值存在极大反差的情况、如何解决姓名和性别匹配等问题。李江教授一一回复，并向师生分享经验：建议运用因果推断的方法去解决图情档研究问题，针对具体的研究问题学习研究方法，并恰当地运用方法以提供更严密的逻辑支撑。

本讲座的参考文献如下：

讲座回放入口：

讲座版权归主办方所有，仅供个人学习，严禁任何形式的录制、传播。一经发现将依法保留追究权。

制版编辑姚志臻

END

学术活动｜第六十一期讲座纪要吴令飞词嵌入模型：大团队与小团队所产生的科技创新是否不同？

学术活动 | 第六十期李江因果推断之倾向值匹配与双重差分：回国后，科研人员的业绩更好吗？

学术活动｜第五十九期讲座纪要马费成：实证研究的应用及拓展

学术活动 | 第五十八期吴令飞词嵌入模型：大团队与小团队所产生的科技创新是否不同？（一项来自Nature的研究）

学术活动 | 第五十七期马费成：实证研究的应用及拓展