查看原文
其他

你所有回归结论可能都是错的, 只因外审说你少做了这个事情....., 太重要了!

计量经济圈 计量经济圈 2022-05-11

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

正文

关于下方文字内容,作者:许诗蕾,华中科技大学经济学院,通信邮箱:xushilei3740@126.com

作者之前的文章:太难了! 用天气做工具变量IV都被审稿人质疑! IV竟如此脆弱那有什么IV选取建议呢?
Michael G. Findley, Kyosuke Kikuta, Michael Denly, External Validity, Annual Review of Political Science 2021 24:1, 365-393
External Validity captures the extent to which inferences drawn from a given study’s sample apply to a broader population or other target populations. Social scientists frequently invoke external validity as an ideal, but they rarely attempt to make rigorous, credible external validity inferences. In recent years, methodologically oriented scholars have advanced a flurry of work on various components of external validity, and this article reviews and systematizes many of those insights. We first clarify the core conceptual dimensions of external validity and introduce a simple formalization that demonstrates why external validity matters so critically. We then organize disparate arguments about how to address external validity by advancing three evaluative criteria: model utility, scope plausibility, and specification credibility. We conclude with a practical aspiration that scholars supplement existing reporting standards to include routine discussion of external validity. It is our hope that these evaluations and reporting standards help rebalance scientific inquiry, such that the current obsession with causal inference is complemented with an equal interest in generalized knowledge.
目录

外部有效性是指一个基于特定样本研究得到的结论,能够在多大程度上适用于更加广泛的总体或其他类型的总体。社科学者常把外部有效性作为理想状态,很少试图做出严格可信的外部有效性推论。近年来,以方法论为导向的学者们对外部有效性的各构成进行了大量研究,本文对其中的许多观点进行了回顾和整理。我们首先阐明了外部有效性的维度,并说明了外部有效性的重要性。然后,我们提出了外部有效性的三个评估标准:模型效度、范围合理性和规范可信度。同时学者应补充报告标准,以包括常规的外部有效性讨论。我们希望本文中的评估和报告标准能够帮助重新平衡科学探究,使目前对因果推理的痴迷与对广义知识的兴趣相辅相成。

1、引言

在过去的三十年里,“可信度革命”始终关注于基于研究设计的内部有效性,在不同的社科领域有了多样的进展。但对于诸多内部有效的研究结论而言,它们是否能够适用于更广泛的领域这一问题的答案并不明确。而精妙的社科研究的终极目标在于其研究推断的适用性并不仅限于手头的数据。推断的存在是社会科学区别于历史和其他人文学科的独特之处,倘若一个推断无法扩展到更广阔的领域,那么其意义便要大打折扣,因此社科学者们的确该给予外部有效性足够的关注和考量。
本文旨在达到三个目标:
1、本文旨在呼吁学者们给予外部有效性同内部有效性同等的重视。但方法论和实证之间存在“沟壑”。为了帮助理解两者间的“沟壑”,本文随机选择了12本社科顶刊中1000篇文献来评估他们对于外部有效性的处理。其中对于外部有效性讨论充分的文章极少,部分文章的外部有效性推断甚至是错误的。
2、本文通过回顾外部有效性理论维度的相关文献,明确外部有效性的意义。尤其,本文综合了外部有效性的方法论文献,明确M-STOUT不同维度及其因果交互、普遍性和可移植性之间的区别。
3、本文提出了三条评估外部有效性的标准:模型效度、范围合理性和规范可信度。,需要合理估计总体平均处理效应(population average treatment effect,PATE)。要使推断具有可移植性,需要合理估计目标总体平均处理效应(target population average treatment effect,TATE)。
值得注意的是,在回顾的文献中,实验主义者和观测主义者对于外部有效性的态度截然不同。实验主义者(包含自然实验主义者)对于外部有效性没有给予过多关注,他们的研究由于样本选择偏误常存在较大局限性。而观测主义者对于外部有效性过于自信。比如,不同于寻常观点,大样本面板数据不能通过研究设计实现外部有效性。即使假设使用混合或随机样本解决了样本选择问题,保证了样本的代表性,但观测主义者的研究常依赖较差的处理指标和结果指标,而造成严重的变量选择偏误。因此,本文指出实验主义者和观测主义者均需改进推断的外部有效性。

2、 什么是外部有效性?

有效性是指一个推断的真实性或效度(Trochim & Donnelly, 2006),它无关于理论和研究设计,即一项研究中得出的推断可能并不适用其他研究,即使两项研究理论相同或研究设计一致(Shadish et al., 2002)。
外部有效性是指:一个基于特定样本(sample)研究得到的结论,能够在多大程度上适用于更加广泛的总体(Population)或其他类型的总体(Population)。
首先需要辨明三个概念:范围(Scope),总体(Population),样本(Sample)。
范围(Scope)是指,理论研究的整体,指理论或论据的适用性和局限性(Walker & Cohen, 1985; Goertz & Mahoney, 2012)。学者们需要区分理论总体、科技总体和相关样本,并明确描述范围条件,以确定推断在M-STOUT维度的界限。
总体(Population)是指,实证研究的对象。
样本(Sample)是指,总体的(真)子集。
图1展示了三者之间的关系。

外部有效性主要存在六大评估维度:M-STOUT。
抽样单元(Unit)。抽样单元的外部有效性检验——“样本推断适用于哪些总体单位”——最为常见。首先需要辨明抽样单位,了解其与外部有效性相关的性质。较有效的方法是通过平衡性检验,对比样本和总体的描述性统计结果(e.g., Biglaiser & Staats, 2010)。若样本与总体统计结果差异不大,那么样本推断或许适用于总体。另外,学者可以对一个国家开展研究得出相关推断后,将不同国家的数据代入同一模型进行回归来检验推断的可移植性。
处理(Treatment)。处理的外部有效性是指,对关键解释变量操作的不同是否影响推断的外部有效性。具有外部有效性的处理变量需具备结构效度,即处理必须与更广泛的理论框架一致。但当处理具有现实性时,即操作需与日常生活相对应时,满足结构效度极为困难(Druckman & Kam, 2011)。部分文献中强调处理或造成不同子群体间效应异质性,有必要对于推断的外部有效性设计校正或加权的方法(Cole & Stuart, 2010; Imai & Ratkovie, 2013; Coppock et al., 2018, 2020)。尤其当存在非服从者(imperfect compliance)和“选入处理组”问题(selection into treatment),效应异质性或造成估计值偏离平均处理效应。Heckman & Vytlacil(2001, 2005)对此建议使用边际处理效应和政策相关处理效应。
结果(Outcomes)。结果的外部有效性是指,对于因变量处理的不同是否影响推断的外部有效性。评估结果的外部有效性最直接的方式是复制性研究(McDermott, 2011)。除此之外,学者们提出了匹配、加权和模拟方法来实现推断的可移植性(Hotz et al., 2005; Cole & Stuart, 2010; Tipton, 2013; Tipton et al., 2014; Allcott, 2015; Hartman et al., 2015; Pritchett & Sandefur, 2015; Dahabreh et al., 2016; Westreich et al., 2017; Buchanan et al., 2018; Dehejia et al., 2021)。
背景(Settings)。背景是指,一套数据产生的环境(如实验室、某国家或乡村等)。许多学者强调,观测性背景(observational setting)、实验室实验背景(laboratory experimental setting)、调查实验背景(survey experimental setting)和实地实验(field experimental setting)得到数据的外部有效性各不相同(e.g., Mutz, 2011; Coppock & Green, 2015; Findley et al., 2017b; Breskin et al., 2019)。目前,大量文献聚焦于观测和实验的优缺点(e.g., Rodrik, 2009; Ravallion, 2012; Pritchett & Sandefur, 2015; Breskin et al., 2019)。除了样本损耗(attrition)、规则抗拒(noncompliance)或溢出问题(spillover),相较于观测性背景,实验的内部有效性更强劲,但外部有效性较弱。实验性估计的普及性仅涉及到理论总体的小部分。Gisselquist(2020)指出实验能对案例分析进行精准估计,但其无法进行外部有效性推断。Banerjee et al(2017b)建议实验主义者可以通过子群体分析、加权和对理论相关子总体分层的方法克服上述问题,但这需要强有力的假设,而这些假设在实验主义者看来可能并不合理。对于观测性研究而言,并不存在相关问题,但是相关样本必须接近研究理论总体的随机样本,这一要求并不现实。
时间(Time)。时间是外部有效性一个重要的维度。K.Munger指出忽视时间效应,意味着默认了三个假设:(1)实验组效应,包含相关子样本,不发生变化;(2)总体的构成是稳定不变的;(3)所有相关混杂因素都是可识别且可测度的。但这些假设并不可能站得住脚。自Pierson(2000)文章发表后,学者们意识到社会科学常受到概率、路径依赖、多重均衡和惯性/反馈效应的影响。尽管难以将以上影响和外部有效性分开,Grzymala-Busse(2011)展现了这些时间因素如何影响机制的显著性和持续性。正如本文强调的,外部有效性的核心在于机制如何运行。而或许根本原因在于,对于目标总体的任何推断都与未来状态有关。
机制(Mechanism)。除时间外,外部有效性的UTOS都需要考虑推断的特征,因此需要包含机制。狭义上,机制被认为等同于中介(Imai et al., 2011),是政策冲击与影响结果之间的桥梁。政策冲击通过中介,对结果变量产生影响。广义上,机制包含约束(constraints),等同(equifinality)和交互(interactions)等形式(Weller & Barnes, 2014; Goertz, 2017)。无论何种定义,机制常指常见的因果关系,而非连锁事件。相应地,对于具有外部有效性的推论而言,其机制在STOUT维度上都应是可信的。
为了更明确以上观点,本文举以下例子进一步解释:
考虑以下两项研究:
(1)2000年利比亚一项村级社区委员会主导的经济救助项目对于社会信任的影响研究。
(2)2000-2020年非洲国家世界价值观调查(World Value Survey, WVS)中社会信任指标和救助项目的面板数据回归。
表1展现了两项研究的M-STOUT维度和各维度如何扩展到不同背景下。比如,学者们会考虑研究结果在不同背景(如实地实验)、不同时间(如2020年)下和对不同抽样单位(如几内亚的个体)能够成立。同样地,学者们会好奇研究结果对于不同的处理变量(如以资金注入为形式的社会救助)或结果变量(如不同方法测度的社会信任)是否依旧成立。另外,女性权益和青年权益两种机制在STOUT维度上会存在差异。在这个例子中,时间和结果是交互的,因此改变其中一项可以满足外部有效性。

3、外部有效性为什么重要?

本文设计了一个能够捕捉内部有效性和外部有效性核心维度的模型,并发现当忽视外部有效性时,一味关注内部有效性会造成估计偏误。
忽视外部有效性和内部有效性的后果都是非常严重的。考虑简单的均值差异估计(difference-in-means estimator),假设我们关注一个处理变量(如一项救助计划)对结果(如社会信任)的影响,为了便于考虑,假设处理变量是二分的,而样本分为处理组和控制组——如接受救助的村庄和未接受救助的村庄。那么均值差异估计得到的结果便是控制组和处理组之间结果均值的差异。
但问题在于,均值差异估计得到的结论不能更广泛地进行推断,因此有必要区分影响均值差异估计的不同偏误(Imai et al., 2008; Cole & Stuart, 2010; Hartman et al., 2015; Westreich et al., 2017; Andrews & Oster, 2019)。根据Imben & Rubin(2015)框架,本文识别了四类偏误,可表示为下式:

3.1 内部有效性和外部有效性产生的偏误

目的分配不是随机的,而是分配给了社会信任程度较低的村落。因此,如果我们比较控制组和对照组,结果会得到前者的社会信任程度更低。但是,我们并不能认为救助项目会产生不良影响。内部有效性偏误是由处理效应异质性引起的,即处理组和对照组间的处理效应差异(Heckman & Vytlacil, 2005; Pritchett & Sandefur, 2013; Kern et al., 2016)。在本文例子中,由于不存在具有广大代表性的政府机构,村落的社会信任程度可能较低,因此其对于救助项目的反应不同于其他村落。如果简单比较处理组和对照组,结论便可能低估救助项目的影响。尽管平均效应可能是正向且更大,但均值差异估计可能只反映了社会信任的边际提升。

误为研究变量PATE/TATE和现有变量PATE/TATE的差值。这一偏误源于理想的结构效度,如测量误差,变量处理和理论目标间的不契合。对于处理和结果两个维度的外部有效性,变量选择偏误需要尤其关注。

3.2 外部有效性偏误与内部有效性偏误同样有害

没有线索证明,比起代表性样本的观测性研究,非代表性样本的随机实验更优(Breskin et al., 2019; Gisselquist, 2020)。即使随机性实验不会产生内部有效性偏误的困扰,但依旧可能存在非随机样本选择偏误和变量选择偏误。相反,对于随机抽样单位和相关变量的观测性研究而言,存在内部有效性偏误,不存在外部有效性偏误。重要的是,目前没有先验理由来解释何种偏误的危害更大。当SATE和PATE/TATE差距较大时,尽管部分实验能够无偏误地估计SATE,但结果可能极具误导性(Hartman et al., 2015)。原则上,相较于非代表性样本,具有代表性样本的观测性研究会因为非随机分配而产生偏误,但其估计结果与PATE/TATE更接近(Breskin et al., 2019)。
为了进一步说明,本文考虑两个较为极端的例子。第一个例子里,学者与救助机构合作,将救助项目随机分配给不同村落,但是学者选择了一个样本,使救助对社会信用的正向促进作用最大化。相反在另一个例子中,学者对一个具有代表性的样本进行相关性研究。两个实验均发现救助项目和社会信任之间存在正向关系,并由此建议广泛地开展类似的社会救助活动。但事实上,这种建议可能是不成立的。在第一个研究中,救助项目对于总体(除样本)的社会信任的影响是很微弱的,也可能是零效应,甚至效应是负面的。而第二个研究则高估了两者之间的相关性和因果联系。因此,需要注意,外部有效性的缺失和内部有效性的缺失一样有害。
这一结论并不意味着代表性样本的观测研究优于非代表性样本的实验。同样地,实验也并不一定具有优势。本文强调的点在于引起PATE/TATE的估计偏误的原因是多样的,而各种原因没有本质上的好坏;同时,我们应该对于外部有效性给予充分的关注,因为它同样对推断的偏误有影响。

4、外部有效性测度标准

本节提出了三个检验外部有效性的标准:模型效用(model utility)、范围合理性(scope plausibility)和规范可信度(specification credibility)。前两者是独立的标准,与机制和背景相关。第三者描述了模型效用和范围合理性这两个标准的可信度。
值得注意的是,我们并不期待给定样本的每一条结论都能具有高度的普适性,但是它必须以某种方式在样本以外得到应用。更精确地说,学者们需要努力实现一定程度的外部有效性,并且能够指出其范围。在潜在结果框架内,对照组和控制组抽样单位的随机分配确保了推论的内部有效性(Imbens & Rubin, 2015)。同样地,即使满足黄金标准(gold-standard),随机实验依旧面临诸多挑战,如样本损耗(attrition)、规则抗拒(noncompliance)或溢出问题(spillover),因此限制推理适用性的挑战时常存在。外部有效性也存在类似动态特征;因此,我们的任务是做出具有外部有效性且有效的推断,而不是使得推断成为普世的公理。

4.1 模型效度

模型效用指样本或研究中进行推断使用的模型的效用(Lucas, 2003; Rodrik, 2009; Clarke & Primo, 2012; Bates & Glennerster, 2017; Deaton, 2019)。外部有效性推断需要有用的模型来支持,以便从中得到影响结果和结论,同时从样本中得到的推断能够适用于更广泛的总体。模型效用主要有以下三个组成:
(1)外部有效性推断是与机制相关,而非具体某点的估计。
一项研究的具体估计不需要判定具有某一精确的真值(Lieberson, 1985; McIntyre, 2019)。根据定义,点估计是有界的,不具有普遍性和可移植性。尽管Vivalt(2020)发现许多随机对照实验的点估计采用基于贝叶斯层次模型的元分析进行推广,但其方法并不解释样本选择偏误或引致变量选择偏误的结构效用挑战(可见第3节)。相应地,点估计方法错误地、不实际地追求效用大小估计的精确。实际上,一个模型的效用指其描述机制的精确度,借此可见其对更广泛研究的结论推演。
(2)具有因果原则的机制需要明确规定。
为了恰当地阐明因果机制,一个理论或实质性论证需要明确指明样本和目标总体的因果原则(Russell, 1912; Cartwright & Hardie, 2012)。因果原则阐明了“因”和“果”之间的联系,同时阐明机制。因果原则能够识别“因”是否是必要的、充分的、充分必要的或取决于概率的,也能识别潜在的因果假设,包括等同是否是因果过程的特征,因果关系是否受其他关系不变假设的影响等。
为了实现外部有效性,一个尤其重要的因果原则是INUS条件,即充分非必要条件中必要不充分的组成部分(Mackie, 1965)。当INUS条件成立时,一个原因只有与其他原因同时发生时才能够产生所需的结果。换句话说,INUS条件指关系到“因”产生“果”的背景因素或结构因素。对于处理冲击影响结果,处理冲击还取决于其他因素;同样的,得到的结果一定是不同因素共同导致的。
值得注意的是,一些因果原则意味“因”与潜在的背景之间的交互。在社会科学领域中,不同的背景或支持因素,决定了“因”与“果”是否相关和如何相关(Acemoglu, 2010; Cartwright & Hardie, 2012)。在本文例子中,利比亚CDD项目的成功只可能当其强调女性权益而非青年权益时才能实现。另外,只有当项目在乡村层面而非县郡层面开展时,CDD项目才可能成功。一个有用的模型表明,在特定研究的STOUT维度中,机制M常为“因”。这也证明对于相同的因果原则,机制在总体的STOUT维度上的运作应是相同的。
(3)外部有效性推断的主体,已经概念化且明确表达。
处理在不同的背景中通常是不同的,但正如前文所述的,其常具有相似机制来支持因果原则的运作。对主体进行理论分析,并涉及检查主体概念化程度,是理解机制如何传递到其他背景中的关键(Sartori, 1970; Garcia & Wantchekon, 2010; Cartwright & Hardie, 2012; Pearl & Mackenzie, 2018)。尤其,一个涵盖机制的有用模型能够明确什么分组后满足普遍性或可移植性,而什么不能分组。
寻找一个合理概念化程度关系到范围的问题(Banerjee et al., 2017a; Bold et al., 2018; Grossman et al., 2020)。许多研究受制于实验设计,这意味着其只关注局部均衡,而研究中的理论机制和背景可以在更高的一般均衡水平上进行有用的分析(Acemoglu, 2010; Deaton, 2010)。考虑一般均衡的研究包含了更多M-STOUT维度,这是有益的。然而,一般均衡方法存在将模型的机制延伸到其真实适用范围外的风险,从而产生不准确的预测(Sartori, 1970; Deaton & Cartwright, 2018)。

4.2 范围合理性

论点和推断的应用常受制于理论和实验设计(Walker & Cohen, 1985; Clarke & Primo, 2012; Neumayer & Plumper, 2017)。
范围合理性主要有以下三个组成:
(1)所有STOUT维度的理论总体和可及总体都得以明确和阐明。
设定合理的范围需要在理论和研究设计阶段具体定义机制所需的所有STOUT维度的理论总体。学者首先需要明确理论总体,然后框定可及总体(或样本框架),从而构建样本。
然而,常见实证中并不如此。唯有在研究一个可及总体中的样本(普遍性推断)或一个未提前定义总体中的样本(可移植性推断)时,学者们可将从可及总体中得到的结论回推到理论总体上。此外,现有文献常作特定样本的推断(Imbens, 2010),集合论方法有时归纳定义总体(Ragin, 2000)。如果学者们有太多自由事后界定范围和总体,那么他们可能选择一个有利于印证其理论的总体。与内部有效性相同,学者们在外部有效性上没有“免罪卡”。合理的范围和总体的定义需要提前完成。
(2)机制与所有STOUT维度的因果交互作用是通过情境具体说明相关性或不言而喻来阐明的。
大多数研究仅展现简单的因果关系,偶尔探索机制和其他STOUT维度间的因果交互作用作为研究反思。事实上,学者需要提前考虑因果交互的理论合理性,如果合理,学者需将交互作用融入所有相关的研究设计决策中(Falleti & Lynch, 2009; Cartwright & Hardie, 2012; Muller, 2015)。正如诺贝尔得主Angus Deaton解释的,证明一项政策冲击为何有效,需要对支持该机制发挥作用的情境进行详细的检验(Deaton, 2010: 448)。因此,研究需要明确STOUT的情境,阐明机制如何在情境下发挥作用(普遍性推论还是可移植性推论)。
狭义的因果交互上,在两个不同情境中,没有任何一个过程是相同的,但这种观点具有较大的局限性。如果进行合理抽象,就可能对因果机制如何在STOUT维度上交互做出外部有效性推断。值得注意的是,合理的范围取决于对因果机制和STOUT情境的合理抽象。在任何情况下,学者需要注意可能因果交互的明确和对于交互作用的事后研究。然而,并不是所有情境都很重要,在某些情况下,推断是相当恒定或同质的,因此有必要明确指出“显然可得”之处(e.g., Berinsky et al., 2012; Mullinix et al., 2015; Coppock, 2018)。假设因果交互是理论成立的,但在实证上并不可行,学者们需要注意建立因果交互作用的阈值。另外,社会科学研究需要建立明确的抽象标准,以使依赖于因果交互的推论能够具有普遍性或可移植性。
(3)所有STOUT维度的样本都是随机的,近似随机的,或按需分层随机选择;如果未按随机方式方式选择样本,则预先制定权重和事后分层可以提高代表性。
随机采样是外部有效性提供了一个强大的解决方案,因为它保证了样本对于一个总体可观测和不可观测维度的代表性。代表性的定义多种多样(Kruskal & Mosteller, 1979),但是本文将其定义为“若样本可以无偏地代表总体,则样本便具有代表性”。实现代表性最直接的策略为随机抽样,但由于该方法在实践上不可能而不予考虑(Shadish et al., 2002; Goertz & Mahoney, 2012)。但最近研究中,从确定总体中进行随机抽样,如基于总体的调查实验(Mutz, 2011)变得越来越可行。大数据的进展能够使我们更好地定义总体STOUT维度,这使得随机抽样的创造性方法成为可能。例如,人口普查记录、投票站和谷歌街道地图已经为学者们使用(e.g., Findley et al., 2017a; Dunning et al., 2019)。
随机抽样是一个基本原理,可作为基准。因此本文建议采用近似随机抽样的原则来评价没有采用随机抽样的研究。类似于自然实验和人为实验,有时学者能控制抽样。在其他情况下,学者未控制抽样,但能够在观测性背景下能够实现近似随机抽样。当研究使用的样本接近近似随机抽样状态时,这个样本将足够用于做出针对目标人群的推断。
理论上,当抽样并不随机时,事前指定加权可以使样本具有代表性(Olsen et al., 2013; Hartman et al., 2015; Kern et al., 2016; Franco et al., 2017; Nguyen et al., 2017; Buchanan et al., 2018; Miratrix et al., 2018)。当样本中某些单位相对于总体对应单位代表性不足时,将部分观测样本加权于其他观测结果是最直观的解决方法。事后分层,或使用权重和分层分析未分层的数据,模拟通过代表性分层后收集的数据的情况,遵循了近似随机代表性抽样的原则。
同样地,随机(或近似随机)抽样的好处是多方面的。如果机制和STOUT维度之间的因果交互是存在的,那么简单的随机抽样得到样本的代表性或许并不如意。即使是有代表性的样本,学者进行的操作,如剔除缺失值(Rubin, 2004)和在实验分析中剔除“非依从者”(Berinsky et al., 2014),也可能产生外部有效性的问题。另外,混合数据不是众多学者所想的灵丹妙药。事实上,插入不相关的观测样本会降低样本的代表性。即使有正确理论指导,当学者们使用如线性回归这样的方法时,通常会对抽样单位进行加权,从而完全抵消使用完整面板数据时得到的代表性,而混合数据的问题会更严重(Aronow & Samii, 2016)。为了防止陷入这些“泥沼”,学者必须仔细评估和证明他们在分析中所做的选择。
(4)理论指导下,非随机样本的选择可有利于理论的外推。
尽管寻求合理的随机样本是有益的,但非随机选择的使用也有助于了解特定的M-STOUT维度。处理和结果的选择不可能是随机的。相反,这需要理论来匹配样本操作和特定结论需要推至的总体的结构(Campbell, 1986; Wells & Windschilt, 1999)。不幸的是,通常操作的选择以便利性为考量,而常忽视样本和总体间联系的形式。
由于在所有M-STOUT可能维度中存在大量参数,非随机选择将单一维度定为恒定或将其排除,需要对其中一个维度作出更为明确的定义(McFadden et al., 1977; Keane & Wolpin, 2007; Wolpin, 2007; Morton & Williams, 2010)。当所有的维度都多样时,明确特定维度的分布或限制条件将变得异常困难。相反,控制一个或多个维度恒定则能防止其他维度的影响。比如,Metaketa Initiative固定常见的处理和结果,同时改变样本单位并一定程度上改变背景。
同样地,当有目的地选择案例时,如果一个结果适用于单一案例,那么它应该能够沿着这一维度扩展到所有其他案例中。如果一个结果在最不可能的情况下成立,那么在更广泛的情况下它也应该是成立的。目的性案例选择能够满足一些标准,如识别典型或理想案例,在某种意义上具有代表性,并提供针对其他案例的推断(Kruskal & Mosteller, 1979)。虽然案例选择的策略很大程度上取决于因果效应和机制的识别问题,但其在建立外部有效性上的价值不该被忽视。
明确的自选择建模(Gaines & Kuklinski, 2011)或异质性特征(Huff & Tingley, 2015)是跨M-STOUT外推的关键步骤。但值得注意的是,最近大量研究表明,非随机样本和随机样本之间的相似仅存在于与美国相关的研究,其中许多研究依赖于WEIRD(western, educated, industrialized, rich, democratic)社会中的MTurk样本(亚马逊土耳其机器人,即一个线上完成任务获得金钱的社群)(Henrich et al., 2010)。在讨论中,自选择过程在其他情况下依旧无法得到很好解释。然而,即使在这些情况下,明确的理论(如正式的模型)能够有助于选择过程的建模。

4.3 规范可信度

规范可信度主要由以下四个部分组成:
(1)进行外部有效性推断,需要理论和研究设计以保证推断是可进行验证的。
学者们需要外部有效性的理论和研究设计,并且对其进行严格的评估。单一的检验是一个实例,另一个样本或总体的检验又是不同的实例。剩余其他的实例通常符合某种分布,而学者的任务便是描述这一分布。对于外部有效性推断,核心问题就变成了:在这种情况下,X造成Y这一机制是否意味其能够跨STOUT维度外延。一旦学者明确理论和研究设计,外部有效性推断便是可以验证的。正如上述讨论的,这一过程并不能简化成评估点估计是否能够从这儿扩展到其他地方。相反,学者们需要谨慎地理论化机制并设计确定范围。理论和研究设计确定后,必须采用可验证的标准来指导研究有关外部有效性的结论。
(2)外部有效性模型的假设和特征是合理的。
存在许多方法可对模型效度和范围有效性进行明确,它们在潜在假设和框架特征的可信度上有所不同。比如,当一个学者使用依赖于随机抽样的方法时,学者需要详细解释抽样步骤以捍卫维持假设。同样地,当一个学者在观测性环境中利用近似随机抽样,学者必须对虚拟随机性的来源进行解释以维持假设。在其他案例中,当随机抽样(或近似随机抽样)难以达到时,学者可会诉诸于事前加权或事后分层。这些方法通常需要满足一个假设:当控制观测到的协变量时,样本的选择应独立于处理分配。因此,外部有效性取决于学者们如何捍卫可观测性假设。
除了这些实证方法,学者们需要更多理论研究来确保外部有效性。在这些案例中,捍卫潜在的假设显得更为重要。DAGs为外部有效性提供了理论解决途径(Bareinboim & Pearl, 2013)。DAG方法明确地为可移植性问题建模,并对可移植的核心组成和支持可移植性的要素进行了强调。尽管因果关系图非常复杂,但值得注意的是其建立在“良好因果模型均是指定的”假设之上(Aronow & Savje, 2020)。因此,因果模型必须基于大量文献和成果进行验证。同样的,针对不同背景下效应异质性进行建模的结构模型和含贝叶斯模型平均或叠加的综合方法通常依赖于分布假设和先验假设(Yao et al., 2018; Dehejia et al., 2021; Dunning et al., 2019; Hollenbach & Montgomery, 2020)。学者们不应不加批判和思考地接受文献中常用操作和步骤,而应判断阐明应用的假设是否合理。
最后,博弈论、计算模型和结构性推断为样本选择过程的理论化提供了方法,但依旧需要满足前提假设。这些理论模型中机制和STOUT背景都是较精确的。设计良好的结构性模型精确地描述了动态函数形式和参数可分的程度(Low & Meghir, 2017)。但是大多数的理论模型依赖于因素、交互作用、效用函数和信息背景的假设——尽管也存在不少例外(e.g., Fey & Ramsay, 2011)。尽管假设并不一定成立甚至不一定合理,但当学者们使用理论模型时,他们必须解释潜在假设与案例之间的适配性。但通常多数时候,学者们并不一定这样做。
也有不少社科学者采用非正式的理论框架。非正式理论框架通常会做出假设,尽管并不明确指出。例如,基于一个高度相似的案例设计进行外部有效性推断,则它必然暗示着关于案例定义和相似程度的系列假设。相反,无论理论方法是否正式,学者们都需要对相关参数、背景和模型所依赖的假设加以阐明。如此,才能对外部有效性推断的规范进行可信的评估。
(3)研究的估计保留了理论目标总体的完整性。
大多数的社科研究旨在通过无偏误的SATE估计,以得到目标总体的平均处理效应(PATE或TATE),但从内部有效性的角度而言往往既不可能也不可取。相应地,学者们必须考虑使用不同被估量的研究设计。然而,使用不同的被估量会改变推断M-STOUT的组成,这意味着外部有效性的推断必须适应改变的M-STOUT。
实验和自然实验尤其可能使用除了SATE外的被估量。对于实验而言,尤其是实地实验,存在一个挑战,即样本损耗(attrition)、规则抗拒(noncompliance)或溢出问题(spillover)将改变样本。反过来,这驱动学者们估计ITT效应而非SATE,或通过只检验服从者对存在的问题进行纠正(Gerber & Green, 2012)。然而,学者们很少对实验在样本损耗(attrition)、规则抗拒(noncompliance)或溢出问题(spillover)下的外部有效性做出必要的解释。
自然实验也面临类似的挑战。比如,工具变量和短断点回归估计不同的局部平均处理效应,而合成控制法估计的是特定处理样本的效应。这些估计都无法巧妙地转换成SATE、PATE和TATE(Deaton, 2010; Heckman & Urzua, 2010)。但学者们可以采用不同的手段来提高自然性实验的外部有效性(Imbens, 2010; Angrist & Rockkanen, 2015; Bisbee et al., 2017; Wing & Bello-Gomez, 2018; Bertanha & Imbens, 2020)。尽管这些方法通常需要强劲的假设作为保障,但一旦假设得以成立,这些方法便能有效提高外部有效性。
最后,观测性研究在估计PATE和TATE方面不一定优于实验性研究(Pritchett & Sandefur, 2015)。尽管覆盖所有观测方法超出了本文的范围,但对于线性回归而言,Aronow & Samii(2016)指出线性回归经常因使用错误的加权方法而得到有偏估计,并提供了加权的新思路。
(4)理论指导的研究综合证实了研究计划的外部合理性。
尽管重复测量和分析是有益的,但是仅仅通过收集数据是不可能解决外部有效性的。值得注意的是,许多我们关注的变量无法得到有效测量,且很多是无关紧要的。另外,研究变得分散且非随机,因此如果在没有识别充足异质性的情况下,即使是包含对某一特定现象进行全面分析的元分析研究也可能是不完全的(Allcott, 2015)。理想情况下,研究需要包含一些随机选择,覆盖大量M-STOUT参数,以理论指导探讨M-STOUT类型变化。

5、报告

过去的几十年里,“可信度革命”使得学者们对于测度研究的内生有效性有了很好的了解,而大量研究对此也贡献了较大说明篇幅。然而,除了关注统计抽样外,学者们很少做出比准确报告外部有效性更肤浅的尝试——如果他们报告的话。但奇怪的是,政治科学对外部有效性的报告标准较为粗略(Gerber et al., 2014),而其他社会科学在定量(Appelbaum et al., 2018)和定性(Levitt et al., 2018)研究中更关注外部有效性。
本文的实际目标在于,使得每一篇发表的社科领域研究都包含对于外部有效性的专门讨论。而这需要学者、编辑和审稿人的坚持和重视。因此,我们非常同意Rodrik(2009)在讨论随机实验时提到的“作者有责任说服读者,这些结果具有一定概括性,并说明在哪些情况下他们并不适用。这与在其他实证研究中识别因果一样重要”。
当报告外部有效性时,前文中三个评估标准为学者讨论和编辑/审稿人评估提供了指导。即使当研究没有完全契合这些标准时,学者仍然有责任准确地描述外部有效性的水平。从外部有效性的角度来看,最可信的研究不仅报告S或U,而且描述了M-STOUT所有维度;明确定义理论总体、可及总体和样本;并且,如果适用的话,明确说明了从样本得到的推断多大程度上能够普及或移植(或两者兼有)。

6、结论

社科和政策研究越发关注外部有效性。学者们开始致力于生产更具普遍性的知识,但在日常研究中他们尚未践行更为严格的外部有效性标准。本文研究基于文献回顾提出了改进的概念和相关标准,以便学者更好地评估外部有效性。但唯有作者、审稿人和编辑对外部有效性给予充分关注是,社会科学的终极目标——“推断能够扩展到更广泛的总体或其他总体”——才能够实现。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |

干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验


计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存