查看原文
其他

女人比男人更坏这件事上,大数据撒了什么谎?

想喝咖啡的课代表 澎湃美数课 2022-05-13


2021年11月,有人以“大数据下的老公老婆”为题发了篇帖子,说在百度搜索框分别输入“如何把老公”和“如何把老婆”,弹出来的句子有巨大的区别:

 ⌂ 2021年11月时的百度搜索界面。图片来源:百度APP

一时间,大家就男女谁善谁恶这个问题吵翻了天。很多人坚信这是最真实的结果,因为“搜索引擎只是将大家搜索次数最多的相关内容如实展现了出来,而大数据是不会有偏见的”。

你是不是感觉怪怪的,但又说不上来哪里有问题?今天课代表就通过分享一本刚出版的新书,来揭示这种靠数据来误导人的情况。

这本书叫《拆穿数据胡扯》(Calling Bullshit),两位作者卡尔·伯格斯特龙(Carl Bergstrom)和杰文·韦斯特(Jevin West)是华盛顿大学的教师,书的内容源自他们联合主讲的同名公开课。在课上,两人从逻辑和传播的角度,揭开了学术界和日常生活中常见的利用数据一本正经胡扯的手法。

对于如今时刻被数据包围,甚至还要靠它们做决定的我们而言,掌握一些辨别数据胡扯的方法,很有必要。

✧✧

什么是数据胡扯?

英国人曾很无聊地统计过,人一辈子至少要撒8万句谎。这些以欺骗为目的的谎言,不断地出现在我们的生活中,或是出于善意的宽慰,或是为满足一己私利。

而胡扯并非完全等于谎言,根据《拆穿数据胡扯》一书的定义:

胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。

也就是说胡扯是一种高阶的谎言,需要借助某种修辞手段来掩盖事实。

书中提到,“谎言加上不厌其烦的细节,往往极具说服力”,而这也是胡扯的一个特质。要知道在很多时候,相比基于事实的阐述,人们更要喜欢添油加醋的内容。

伯格斯特龙他们引用了这样一项研究:在2017年的脸书平台上,最成功的标题都没有阐述事实,而是承诺给一种情感体验,例如“会让你心碎”“会让你看了再看一遍”。

 ⌂ 社交平台上,什么标题最受欢迎。图片来源:拆穿数据胡扯》

花里胡哨的词句不仅能吸引大家的注意力,更重要的是会让谎言看起来更真,也是老派胡扯者常用的手段。但随着技术和媒介的进步,这种纯粹靠添加细节的胡扯手段已称不上多高明,通过数据和统计来包装准确性、严谨度的新派胡扯,开始日益吃香。

就像“理工科要比人文社科更严谨科学”这个观念一样,很多人也觉得“定量证据比定性证据要靠谱的多”,正是利用了这一点,数字成了如今胡扯者的撒手锏。明明是胡扯,却还能给人种“都是用数据说话,一定很靠谱”的感觉。

那么,胡扯者是如何利用数据来误导我们的呢?

✧✦✧

数据胡扯的常见方法


在《拆穿数据胡扯》一书中,两位作者提到了数据胡扯出现的两个常见原因:

要么是因为输入黑箱的数据存在偏差,要么是因为得出的结果存在明显问题。

所谓的黑箱,指的是“统计测试或数据科学算法”,它可以是一篇论文中研究者所使用的研究方法,也可以是一个互联网平台用来计算数据的程序。

 ⌂ 数据变结论的简要流程。图片来源:《拆穿数据胡扯》

对普通人来说,黑箱最大的特点就是看不懂。但也不用看懂,因为大家只用关心结果或结论,研究方法对不对,有同行来评述。但这就给了数据胡扯者广阔的操作空间。

还记得开头的那张“大数据下的老公老婆”吗?它的问题就出在“输入黑箱的数据存在偏差”,也就是抽样的样本不合理,作者们将这一类问题归纳为“选择偏奇”。

要推翻“大数据说男性比女性更好”这个结论也很简单,去用户数量也非常多的抖音搜同样的文字,就会看到截然不同的画风:

 ⌂ 2022年5月时的抖音搜索界面。图片来源:抖音APP

为什么会有这样的差异?用百度和用抖音的,难道不都是数以亿计的中国人吗?

作者们在书中多次提到:“我们找到什么样的结果,取决于我们看的是哪儿。”大数据是否准确,也依赖样本是否选取合适。人们在寻求帮助时,会用百度,在展现自己日常时,会用抖音。这就导致了两个平台会出现不一样的大数据结果。

除了输入的数据不对,会带来错误的结论,还有很多的数据胡扯,是在黑箱上做文章,也就是用不正确的算法或逻辑来推导。其中最典型的问题,就是把相关性当因果关系来处理。

书中举了这么一个例子:2016年,《美国医学会杂志》发了一篇研究称,不经常锻炼的人患13种不同癌症的比例更高。研究没有说锻炼和癌症之间有何因果关系,但媒体在报道时用的标题却一个比一个言之凿凿:

《时代》:“锻炼可以将某些癌症的风险降低20%。”
《洛杉矶时报》:“研究表明,锻炼可以降低13种癌症的风险。
《美国新闻与世界报道》:“大量研究发现,运动可以降低患癌症的风险。”

人会在算法上出错,而从不算错的机器其实也不例外。

有人曾训练机器学习通过人脸来识别犯罪分子的算法,且不论这种设计初衷是否要商榷,但到头来,机器把不笑的人都识别为罪犯了。

这是因为前期训练算法时,给的那些有罪者的照片多数都是板着脸的,而普通人则要阳光的多,于是算法认准了嘴角不上翘的人就是犯人。

 ⌂ a组为罪犯,b组为非罪犯。图片来源:《Automated Inference on Criminality using Face Images》
归根结底,算法的偏见还是来自于人类的不当训练。《拆穿数据胡扯》强调:“任何算法,无论逻辑上如何严密,都无法弥补训练数据的缺陷。”

但即使是数据选取正确、算法逻辑无误,数据胡扯就没有可乘之机了吗?答案是否定的,因为结果也可以被“动手脚”。

“哈佛大学一项近20万人的大样本队列研究结果表明,每天喝含人工代糖饮料的人群患糖尿病的风险增加了19%,高于喝含糖饮料患糖尿病的风险。”这篇报道里,哈佛大学、20万人的样本、19%的风险,几个关键词一下子就宣判了以0糖0卡为主要卖点的代糖其实不健康。

但媒体在报道时,并没有提到研究者自己写的注意事项:研究结果可能存在反向因果关系,即被调查者本身处于糖尿病高风险当中,而从含糖饮料转向了代糖饮料,因此应该审慎对待代糖饮料比含糖饮料更容易引发糖尿病的结论。

除了这种不交代全部信息的做法,在数据可视化上做手脚也是数据胡扯的高频手段。

例如下面这张图,通过改变变量分组的宽度,三张柱状图就传达出了完全不一样的信息。

 ⌂ 同样的数据,得出了不同的结论。图片来源:《拆穿数据胡扯》

如果你对这种利用视觉手段来胡扯的内容感兴趣,可以移步美数课堂之前的一篇文章🔗可视化打假:图表如何欺骗我们?,里面有不少案例。

以上这些案例让我们看到了,不只是历史,数据也能成为任人打扮的小姑娘。那么我们该如何辨别那些数据胡扯呢?


✧✧✦

看穿胡扯,你需要这些小技巧


虽然知道了这些数据胡扯手段后,想再利用数字轻易忽悠你是不太可能了,但作者们在《拆穿数据胡扯》一书的最后,还是总结归纳了一些实用的识别方法:

1、质疑信息来源

当某个人或某篇文章想向你兜售一条信息或一个观念时,提醒自己多问3个小问题:这个消息是谁告诉我的?Ta是怎么知道的?Ta想向我兜售什么东西?

因为无论多么缜密,那些胡扯的最终目的,就是为了让你相信某件事。

2、小心不公平的比较

机场安检托盘比厕所还脏!
手机上的屏幕比厕所还脏!
门把手的细菌比厕所还脏!

这些时不时就会出现在媒体里的消息,给人一种全世界最干净的地方是马桶的错觉。但其实,这些报道提到的研究,比较的都是两者的细菌或病毒,而除此之外的微生物,并没有列入研究范围之内,而且也没有说明这些微生物的致病性。

这种刻意选取单一维度进行比较的方法,并包装上更宽泛的结果,是很多数据胡扯者惯用的伎俩。

 ⌂ 手机屏幕上有多少细菌。图片来源:大马公共健康脸书专页

3、如果好得(糟糕得)不像是真的……

这是一个很好理解的方法,就像多数人在网上收到“恭喜中奖”的消息后第一反应都是立马关掉一样,遇到那些情况变得过好或过坏的数字时,记得一定要先甄别,再做判断。

4、从数量级考虑

在不少人的家族微信群里,不时会看到一些有关健康的奇怪说法,例如“人一生能吃9吨左右的食物,谁先吃完谁先走”。

⌂ 食物谣言在网上层出不穷。图片来源:微信搜索

这个说法算一下,就知道不靠谱:假设寿命是70岁,那平均每天能吃的食物只有350多克,这包括了谷物、肉类和蔬菜各种食材。

很多时候,捏造的数据,连逻辑自洽都不一定能做到。

5、避免证真偏差

所谓的证真偏差,就是指我们往往会在意、相信或分享与我们已有信念相一致的信息。

作者们引用了《娱乐至死》一书的作者尼尔·波滋曼的名言来概括:“在任何时候,你必须与之抗争的胡扯主要源于你自己。”

6、考虑多个假设

作者们给出的最后一个方法,简单说就是不要把合理解释当作唯一,因为它可能是逻辑自洽但只是事实的一小部分,甚至与事实相距甚远。

在《拆穿数据胡扯》一书里,卡尔·伯格斯特龙和杰文·韦斯特列举了大量的案例来解释数据是怎么参与胡扯的,值得一读。

对了,本文第一部分开头那句“人一辈子至少要撒谎8万句”,也是个数据胡扯,你读的时候信了吗?




◒◡◒

┊推 - 荐 - 阅 - 读┊







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存