计量方法导致失真的社科研究, 谁之过

来源放在文章后面计量经济圈 2019-06-30

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@sina.cn

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

计量经济圈昨天发送的文章《省级面板数据很不妥, 省级空间计量更荒谬》，仅仅是从一个统计学家的角度来看待这个问题。而在经济学实际研究过程中各位圈友还是需要以问题为导向，毕竟国际上非常好的期刊都有不少使用州级面板数据做的(空间计量)的好文章。因此，那篇文章权当作是从另一个角度的思考，提出问题很重要，但解决问题更重要，而在问题没有很好解决之前咱们就按照已有的方法做好研究。

来源在文章后面. 以下是由三个短文组成, 但是都围绕今天的主题，值得细读, 欢迎到计量社群交流.

1. 谢宇教授讲社会科学和自然科学的关系

其实，这个问题是很大的，任何一个搞社会科学的人都会接触到这个问题，就是社会科学与自然科学的关系是什么？你们当中有不少是学社会学的，很多老师也学过社会学方面的课，了解很多社会学的知识，所以我想你们对社会学有一定的认识，从一些课程中学到了很多社会学的知识，比如中国的现状，中国的人口，中国的家庭，中国的文化，中国的民族等等。但是我想提出这样一个命题，我觉得你可能学了很多东西，对社会有很多了解，有很多关于社会的知识，但是你可能还没有学到社会学的核心。社会学的核心是什么呢？我认为社会学的核心并不是知识，并不是关于社会的知识，而是关于得到知识的手段和方法。并不是说你从一些学者的言论中得到多少知识，而是你对他们的言论的一些批判的见解，这是更重要的。也并不是说你一定要知道什么理论，对于我而言，知道什么并不重要，而是要知道你应该知道什么，什么是对的，什么是衡量知识的标准。所以就我个人看来，社会学的学习就是要培养一种批判性的思考。

知识是变化的，社会是变化的，尤其是中国社会现在变化得那么快，你今天学的东西到明天可能就没有用了，但是你应该知道什么样的知识是对的，什么是错的，就是你要对它作一个评价，他的结论是不是有道理，并不是说名人说的话就一定是正确的，不要跟着人家跑。所以我在训练学生的时候，特别强调学生的独立性思考，批判性思考，质疑他说得对不对，结论有没有道理。我为什么这样讲呢，我做过很多这方面的研究，知道的东西比较多，刚才马老师也讲了，我做过美国最重要的社会学刊物的副主编，还做过一些其它的工作。假如你仔细看一下社会学的东西，很多社会学的东西在方法来上是靠不住的，错误很多。

有的人认为社会学就是技术性的东西，只是做简单描述；也有的人认为社会学只是对政策表示赞同意见。其实，社会学是一门严格的科学，要做好并不容易。很多人在方法论上犯错误，是因为他的研究在方法论上站不住脚。一个好的学者，不但要发表自己的言论和观点，还要知道自己的言论和观点的缺陷和不足在什么地方。比如说现在他有一个假设，但是他拥有的证据不足，并不能说明他的假设是成立的，就应该知道自己的论点的缺陷性，尤其是在方法论上的缺陷性，假如不能认识到这点缺陷性，你的研究就可能出问题。

我现在讲一个很简单的例子，这是一个在假设上犯错误的例子。我有一个研究生，他提出了这样一个假设，说一个人的数学成绩取决于他的语言能力，语言能力强，数学成绩就高。这就是一个假设出来的理论模型。他有了这个理论模型之后，就想做一个验证，他就制定了这样一个研究方案。他去了两个班，一个是数学101班，这个班是一个基础班，有100个学生。另外一个班是数学501班，是给研究生上的高级班，这是一个小班，只有10个学生。这个研究生到了这两个班上收集了这样一个数据，他问这两个班上的同学，你认为你的语音能力怎么样，数学成绩怎么样，强还是不强，强就用1表示，不强就用0表示。在101班上，100个学生有90个学生说他的语言能力强，有94个学生说他的数学能力强。在501班上，10个学生有8个说他语言能力强，有9个学生说他的数学能力强。这个研究生收集好数据之后，第二天就很高兴地跑到我办公室来，说他收集的数据证明了他的假设，因为一个班上的同学语音能力强，数学能力也将，另一个班上，学生的语言能力低，数学能力也低，这就证明了他的理论假设，让我给他答辩。假设你是我，你会给他提出什么样的批评？这样的数据存在什么毛病？我想听听你们的意见。

学生一：1和0是定类变量，不足以客观描述出具体的强弱状态；另外，他是通过一种主观测评来获得数据，是被测者自己说的，因此数据的客观性不强。

学生二：我认为他在抽样上存在问题，他得出的数据不具有统计上的意义。

学生三：两种能力的相关可能是虚假的。

学生四：他是通过集体的语言能力和数学能力来判断个人在这两种能力上的相关性。

学生五：样本太小，调查的数量不够。

学生六：他调查的学生是两个不同层次的，他们之间不具有可比性。好，很不错。这个数据存在很多问题，一个是样本规模太小，其中的差异在统计学上未必是显著的。二是这两种能力并不存在因果关系，这种相关是一种伪相关。第三个是天花板效应，这是一个测量的问题，在做好与差两种选择时，大家都感觉很好，这是美国社会的一个普遍现象，这就显示不出其中的差异性。还一个是选择性偏差，他收集数据时是以班级为单位，而他选择的班级存在级别上的差异，他们之间不具有可比性。第五个是测度问题，他的数据是由被测者自己报的，学的简单的就感觉好，自我感觉好的就报好，这是由主观因素主导的，缺乏客观性。

第六个是他的验证存在一个生态学谬误，他的理论假设是以个人为单位的，是说个人的语言能力高会导致数学成绩好，这是对于个人而言的，而他做的数据和得出的结论中是以班级为单位的，但是在班级中有些人可能数学成绩好，但是语言能力差，有些人数学成绩差，但是语言能力强，他们的关系可能是正的，可能是负的，也可能不存在关系。这就是说，当你的数据层次和你的理论层次不吻合的时候，你的数据可能说明不了你的理论，甚至有可能和你的理论是相反的。这就是为什么以团体为单位来研究问题经常会出错误，因为这反映不了个人层次上的现象。这一点我在以后的讲座会详细讲到。

2. 研究方法运用与社会科学研究失“真”的案例

尽管社会科学研究有着鲜明的科学特征，并有严格的方法学程序以保障研究的真实性。但在真实的研究中仍然由于方法使用不当造成的研究失“真”的案例。下面旨在讨论一“失真”的个案，讨论如何利用方法学的约束更好地开展实证研究的可能。

热浪之争与区位谬误

2002年，社会学家克兰纳伯格(Klinenberg)出版了一本针对1995年芝加哥热浪的社会学研究，克兰纳伯格运用社会学视角回答在芝加哥热浪事件中，不同社会群体及邻近街区间的死亡率差异。他指出贫困的黑人族群聚集地区社群的生态环境是高死亡率的重要影响因素，这些生态因素包括高犯罪率、街道空置率、低人口密度及随之而来的个体孤立(Klinenberg，2003：P124)。该书出版后引起巨大反响，获得多项学术和图书类的奖项，被视为城市社会学研究的经典之作。

2006年，社会学家邓奈尔(Duneier，2006)在《美国社会学评论》撰文，批评克兰纳伯格的研究存在致命的缺陷。他认为克兰纳伯格仅仅只是收集到社区层面的数据而并有任何个体层面的信息，其推断结果的有效性就值得怀疑。通过实地的回访(邓奈尔回访了克兰纳伯格研究中涉及街区的死者亲属及街坊邻居等)，他认为克兰纳伯格的推断难以成立。比如他发现独居人口更多的白人社区死亡率更小。回访获得证据表明，酗酒和吸毒者更容易在热浪来袭过程中死亡。邓奈尔判断，吸毒和酗酒的人士在热浪来袭时独处在没有空调的家中才是黑人社群死亡率的根本原因。因此，他批评克兰纳伯格推断存在着明显的生态学谬误(the ecological fallacy)，导致整个研究结果的偏差。

区位谬误并不是新鲜名词，它由社会学家罗宾逊(Robinson)在20世纪五十年代提出，随即引起广泛的讨论。区位谬误指的是以区位为单位得到的结果也可以在区位的个体中获得证实(巴比，2009：P102)。以克兰纳伯格的研究为例，更高层级的数据即是社群的生态环境，他试图用社区生态环境的证据说明社群死亡率的差异，推断个体死亡的原因。Duneier强调，克兰纳伯格的数据只代表了两个社群状况的不同，它与死亡率之间二者的相关关系也有可能是伪相关，可以将该证据作为两个社群存在死亡率差异的佐证，但却不能有效地解释社群中的个体为什么会死亡的原因。他强调，基于田野调查、观察、采访等人类学方法进行的研究尤其要注意避免生态学谬误的问题，运用更高层级的数据推断个体的行为更需要小心谨慎。

3. 人人都应该知道的统计相关性知识

《新英格兰医学杂志》曾刊登过一篇论文，声称吃巧克力可以提高认知功能。得出这一结论的根据是每个国家的诺贝尔奖得主数量与该国巧克力人均消费量具有强相关性。这靠谱吗？

2012年，《新英格兰医学杂志》刊登了一篇论文，声称吃巧克力可以提高认知功能。得出这一结论的根据是每个国家的诺贝尔奖得主数量与该国巧克力人均消费量具有强相关性。令人诧异的是这篇论文竟然通过了同行评审，因为很显然作者犯了两个常见错误，这是生物医学文献中研究者进行相关分析时常犯的错误。

相关性描述了两个现象之间的线性关系强度（为了简化说明，这里着重阐述最常用的线性关系——皮尔森相关）：例如，一个变量值的增加可能会跟随着另一个变量值的增加；或者可能是负相关，一个变量的增加会伴随另一个变量的减少。它们的关系是用一个无单位的数值来计算的，那就是相关系数，其数值范围是从-1到+1，绝对值越接近1，表示相关性越强。

错误1：集体相关=个体相关

《新英格兰医学杂志》那篇论文犯的第一个错误是在群体数据的基础上得出关于个体的结论，陷入了生态学谬误中。这个案例中，作者计算了集合层面（国家）的相关系数，然后错误地把这个数值用于得出关于个体层面的结论（吃巧克力提高认知功能）。实际上，个体层面的准确数据完全是未知的：没有人收集过诺贝尔奖得主吃过多少巧克力的数据，甚至于他们到底是否吃过。事实上，加利福尼亚大学圣迭戈分校的比阿特丽斯·戈隆布（Beatrice A. Golomb）的研究团队检验了这个假设，指出两个变量之间根本不存在相关性。

该论文从未被撤回，至今已被引用23次。即使错误的论文被撤回，相关新闻报道还保留在互联网上，还能继续传播错误信息。如果这些对统计分析有所误解的错误结论甚至能出现在《新英格兰医学杂志》这样的著名期刊，那么人们会很好奇，这样的错误出现在生物医学文献中的总体频率有多大？

错误2：相关关系=因果关系

第二种曲解相关性分析的错误更常见，即把相关性等同于因果关系。两个因素之间表现出一种关系，可能不是意味着它们之间相互影响，而是意味它们都被同一个隐藏的因素影响。在巧克力消费量和诺贝尔奖得主的例子中，可能是一个国家的富裕程度同时影响了巧克力的消费量和高等教育的可获取性。由此可见，完全无关的现象也可能会可笑地呈现出相关性。相关性可以很肯定地指出一个可能存在的因果关系，但是并不足以证明存在这样的因果关系。

即使科学家很清楚相关性不等于因果关系，但是把两者混为一谈的研究在顶级期刊中还是很普遍。比如，一项1999年发表在《自然》杂志上的研究发现，两岁以下儿童的近视和睡眠期间夜间环境光曝光度存在强相关。但是，2000年发表在《自然》杂志上的另一项研究结果驳斥了上述发现，指出儿童近视的原因是遗传性的，而不是环境因素造成的。这个新的研究发现父母近视与儿童近视之间存在强相关，指出近视的父母为孩子的卧室夜间开灯的可能性更大。在这个例子中，作者基于假想的关联得出了一个结论，而没有检查其他可能的解释。

安斯库姆四重奏是统计特性非常相似的四组数据图，尽管统计上貌似都显示出很强的线性相关关系（相关系数都为0.816），这样的结论却只适用于左上图，另外三幅图都违反了统计分析的假设，由此强调了选择一个合适的数据分析之前首先绘制数据图的重要性。

错误3：相关系数为零=变量相互独立

第三种相反类型的相关错误是认为相关性为零就意味着两个变量相互独立。如果两个变量之间相互独立，我们可以推出这两个变量之间的线性相关系数为零。反之则不一定成立，线性相关系数为零不一定意味着两个变量相互独立。

让我们玩一个抛硬币确定投注金额的游戏：若第一次是正面朝上、第二次是反面朝上，则输10美元；如果第一次是反面朝上、第二次是正面朝上，则赢20美元。如果我们定义X为投注金额、Y为净获胜金额，那么X和Y可能会是零相关，但是它们不是相互独立的——因为如果你知道X的值，就能知道Y的值。

1973年，英国统计学家弗兰克•安斯库姆（Frank Anscombe）用一组理想化的数据图形象地展示了这种误解，称为安斯库姆四重奏（Anscombe’s quartet）。

迷信数据模型的危害

著名统计学家乔治·博克斯（George E. P. Box），在他的著作《实证模型的建立与响应面》中写道：“本质上而言，所有统计模型都是错误的，但是其中有一些是有用的。”所有统计模型都是使用数学概念对一个真实世界中的现象的描述，所以只是现实的一种简化。如果统计分析是精心设计的，并且对所用方法的局限性有彻底的理解，那么，它们会非常有用。否则，统计模型不仅会不准确、毫无用处，而且还具有潜在的危险性——误导医生和公众。

我经常使用和设计数学模型来探究公共健康问题，尤其在健康技术评估中。如果不加批判地使用已经发表的研究成果中的数据来设计这些数学模型，可能会得出关于公共健康的不准确、完全无用甚至不安全的结论，因而对人类健康和公共政策产生重大影响。

例如，加利福尼亚大学旧金山分校的流行病学家史蒂芬·赫利（Stephen Hulley）及其同事发表的一个随机控制实验确定，激素替代疗法会导致冠状动脉心脏疾病的风险增加，尽管以前发表的非实验研究的结论是，激素替代疗法会降低冠状动脉心脏疾病的风险。这个精心设计的实验表明，非实验研究中低于冠状动脉心脏疾病平均概率的结果，是由那些使用激素治疗的人具有更高的平均社会经济地位导致的，而不是由疗法本身导致。对非实验研究的重新分析，包括社会经济地位对收入的影响分析，得出了与随机控制实验相同的结果。但是损害已经造成：美国食品药品管理局顾问委员会已经批准激素替代疗法更换标签，允许把预防心脏疾病列为一个指示，这几乎是在上述实验十年之前。

如何避免错误

上述相关性分析的三种错误都可以避免。流行病学家和统计学家奥斯汀·布拉德福德·希尔（AustinBradford Hill）在1965年表明，要得出因果关系的结论，就必须满足一定的判定标准。那些判定标准依然有效，但是科学家还研究出了从观察到的数据得出因果推论的更新的方法。还有一些方法正在研究中——例如，朱迪亚·珀尔（Judea Pearl）和詹姆斯·罗宾斯（James Robins）各自独立地介绍了一种从非实验研究中得出因果推论的新框架。罗宾斯研究出了一种统计解决方法，能把非实验数据转化为如同从一个随机控制实验中得出的数据。

生态学谬误通常会在流行病学研究中发生，当研究者只能获得集合数据时。在其1997年的著作《生态学推理问题的一种解决方法》中，哈佛大学的加里·金（Gary King）描述了导致这种错误的统计困难：用于生态学推论的数据往往具有庞大级别的异方差，这意味着一个数据集内部不同部分的差异性在很大的数值范围内波动。为了避免这种谬误，希尔建议那些缺乏个体层面的数据的研究者应该进行认真的多层面的数据建模，在生态学数据的基础上补充个体层面的数据。

为了避免因为相关系数为零就假定这两个变量是相互独立的，必须对数据进行绘图以确定数据是单调的。如果数据不单调，可以把其中一个变量或者两个变量都转换成单调的变量。在数据变换中，每一个变量的所有数值都使用同一个等式重新计算，这样能保持两个变量之间的关系，但是它们的分布改变了。不同的数据分布使用不同类型的数据变换。例如，对数变换压缩了大数值的间隔，扩大了小数值的间隔，当数组的平均值更大、变动也更大的情况下，这种数据变换是合适的。

相关性错误和统计学本身一样古老，但是随着发表的论文和新期刊的数量不断增长，这样的错误也在倍增。尽管期望所有研究人员都对统计学方法有深入理解是不现实的，但是研究人员必须持续关注并不断扩展基本的统计学方法和知识。不知道或是不加批判地评估所使用的统计学方法的充分性和局限性，通常是学术论文中所犯错误的根源。在一个研究团队中有生物统计学家和数学家的参与不再是一个优势而是必需。

科学研究的过程要求足够的生物统计学知识，而这是一个不断变化的领域。生物统计学家应该在一开始就参与课题研究，而不是等到测量、观察或是实验完成以后。另一方面，在批判性地评价发表的科学论文时，生物统计学的基本知识也是必需的。在生物学研究中更谨慎地使用统计学，也有助于在其他领域设定更严格的标准。

为了避免这些问题，科学家必须清楚地表明他们理解了一个统计学分析背后的假设，并且用他们的方法解释：为了确定他们的数据集满足那些假设，他们做了哪些工作。如果一篇论文没有严格遵循这些研究规范，就不应该通过评审。即使当评审者有所疏漏的情况下，采取这些步骤也能加快发现错误的过程，增加科研过程的透明度，支撑公众对科学的信心，最重要的是，避免因无心的错误而对公众健康造成损害。

来源: 1. 爱思想网 2.为什么质性研究不是新闻采访——兼论教育与社会科学的方法学基础; 3. 世界科学(蔡立英/编译)

可以到计量社群交流探讨, 精英学者聚集社区.

推荐阅读：

1.工企数据库匹配160大步骤的完整程序和相应数据

2.1998-2016年中国地级市年均PM2.5数据release

3.1997-2014中国市场化指数权威版本release

4.2005-2015中国分省分行业CO2数据circulation

5.实证研究中用到的135篇文章, 社科学者常用toolkit

可以到计量经济圈社群进一步访问交流各种学术问题，这年头，我们不能强调一个人的英雄主义，需要多多汲取他人的经验教训来让自己少走弯路。

计量经济圈是中国计量第一大社区，我们致力于推动中国计量理论和实证技能的提升，圈子以海内外高校研究生和教师为主。计量经济圈绝对六多精神：社科资料最多、社科数据最多、科研牛人最多、海外名校最多、热情互助最多、前沿趋势最多。如果你热爱计量并希望长见识，那欢迎你加入到咱们这个大家庭(戳这里)，要不然你只能去其他那些Open access圈子了。注意：进去之后一定要看小鹅社群“群公告”，不然接收不了群息，也不知道怎么进入咱们独一无二的微信群和QQ群。在规则框架下社群交流讨论无时间限制。

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

计量方法导致失真的社科研究, 谁之过

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

计量方法导致失真的社科研究, 谁之过

您可能也对以下帖子感兴趣