女人比男人更坏这件事上，大数据撒了什么谎？

Original 想喝咖啡的课代表澎湃美数课 2022-05-13

收录于合集 #美数课堂 73个

2021年11月，有人以“大数据下的老公老婆”为题发了篇帖子，说在百度搜索框分别输入“如何把老公”和“如何把老婆”，弹出来的句子有巨大的区别：

⌂ 2021年11月时的百度搜索界面。图片来源：百度APP

一时间，大家就男女谁善谁恶这个问题吵翻了天。很多人坚信这是最真实的结果，因为“搜索引擎只是将大家搜索次数最多的相关内容如实展现了出来，而大数据是不会有偏见的”。

你是不是感觉怪怪的，但又说不上来哪里有问题？今天课代表就通过分享一本刚出版的新书，来揭示这种靠数据来误导人的情况。

这本书叫《拆穿数据胡扯》（Calling Bullshit），两位作者卡尔·伯格斯特龙（Carl Bergstrom）和杰文·韦斯特（Jevin West）是华盛顿大学的教师，书的内容源自他们联合主讲的同名公开课。在课上，两人从逻辑和传播的角度，揭开了学术界和日常生活中常见的利用数据一本正经胡扯的手法。

对于如今时刻被数据包围，甚至还要靠它们做决定的我们而言，掌握一些辨别数据胡扯的方法，很有必要。

✦✧✧

什么是数据胡扯？

英国人曾很无聊地统计过，人一辈子至少要撒8万句谎。这些以欺骗为目的的谎言，不断地出现在我们的生活中，或是出于善意的宽慰，或是为满足一己私利。

而胡扯并非完全等于谎言，根据《拆穿数据胡扯》一书的定义：

胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息，而是利用语言、统计数字、数据图表和其他表现形式，通过分散注意力、震慑或恐吓等方法，达到说服或打动听话人的目的。

也就是说胡扯是一种高阶的谎言，需要借助某种修辞手段来掩盖事实。

书中提到，“谎言加上不厌其烦的细节，往往极具说服力”，而这也是胡扯的一个特质。要知道在很多时候，相比基于事实的阐述，人们更要喜欢添油加醋的内容。

伯格斯特龙他们引用了这样一项研究：在2017年的脸书平台上，最成功的标题都没有阐述事实，而是承诺给一种情感体验，例如“会让你心碎”“会让你看了再看一遍”。

⌂ 社交平台上，什么标题最受欢迎。图片来源：《拆穿数据胡扯》

花里胡哨的词句不仅能吸引大家的注意力，更重要的是会让谎言看起来更真，也是老派胡扯者常用的手段。但随着技术和媒介的进步，这种纯粹靠添加细节的胡扯手段已称不上多高明，通过数据和统计来包装准确性、严谨度的新派胡扯，开始日益吃香。

就像“理工科要比人文社科更严谨科学”这个观念一样，很多人也觉得“定量证据比定性证据要靠谱的多”，正是利用了这一点，数字成了如今胡扯者的撒手锏。明明是胡扯，却还能给人种“都是用数据说话，一定很靠谱”的感觉。

那么，胡扯者是如何利用数据来误导我们的呢？

✧✦✧

数据胡扯的常见方法

在《拆穿数据胡扯》一书中，两位作者提到了数据胡扯出现的两个常见原因：

要么是因为输入黑箱的数据存在偏差，要么是因为得出的结果存在明显问题。

所谓的黑箱，指的是“统计测试或数据科学算法”，它可以是一篇论文中研究者所使用的研究方法，也可以是一个互联网平台用来计算数据的程序。

⌂ 数据变结论的简要流程。图片来源：《拆穿数据胡扯》

对普通人来说，黑箱最大的特点就是看不懂。但也不用看懂，因为大家只用关心结果或结论，研究方法对不对，有同行来评述。但这就给了数据胡扯者广阔的操作空间。

还记得开头的那张“大数据下的老公老婆”吗？它的问题就出在“输入黑箱的数据存在偏差”，也就是抽样的样本不合理，作者们将这一类问题归纳为“选择偏奇”。

要推翻“大数据说男性比女性更好”这个结论也很简单，去用户数量也非常多的抖音搜同样的文字，就会看到截然不同的画风：

⌂ 2022年5月时的抖音搜索界面。图片来源：抖音APP

为什么会有这样的差异？用百度和用抖音的，难道不都是数以亿计的中国人吗？

作者们在书中多次提到：“我们找到什么样的结果，取决于我们看的是哪儿。”大数据是否准确，也依赖样本是否选取合适。人们在寻求帮助时，会用百度，在展现自己日常时，会用抖音。这就导致了两个平台会出现不一样的大数据结果。

除了输入的数据不对，会带来错误的结论，还有很多的数据胡扯，是在黑箱上做文章，也就是用不正确的算法或逻辑来推导。其中最典型的问题，就是把相关性当因果关系来处理。

书中举了这么一个例子：2016年，《美国医学会杂志》发了一篇研究称，不经常锻炼的人患13种不同癌症的比例更高。研究没有说锻炼和癌症之间有何因果关系，但媒体在报道时用的标题却一个比一个言之凿凿：

《时代》：“锻炼可以将某些癌症的风险降低20%。”

《洛杉矶时报》：“研究表明，锻炼可以降低13种癌症的风险。”

《美国新闻与世界报道》：“大量研究发现，运动可以降低患癌症的风险。”

人会在算法上出错，而从不算错的机器其实也不例外。

有人曾训练机器学习通过人脸来识别犯罪分子的算法，且不论这种设计初衷是否要商榷，但到头来，机器把不笑的人都识别为罪犯了。

这是因为前期训练算法时，给的那些有罪者的照片多数都是板着脸的，而普通人则要阳光的多，于是算法认准了嘴角不上翘的人就是犯人。

⌂ a组为罪犯，b组为非罪犯。图片来源：《Automated Inference on Criminality using Face Images》

归根结底，算法的偏见还是来自于人类的不当训练。《拆穿数据胡扯》强调：“任何算法，无论逻辑上如何严密，都无法弥补训练数据的缺陷。”

但即使是数据选取正确、算法逻辑无误，数据胡扯就没有可乘之机了吗？答案是否定的，因为结果也可以被“动手脚”。

“哈佛大学一项近20万人的大样本队列研究结果表明，每天喝含人工代糖饮料的人群患糖尿病的风险增加了19%，高于喝含糖饮料患糖尿病的风险。”这篇报道里，哈佛大学、20万人的样本、19%的风险，几个关键词一下子就宣判了以0糖0卡为主要卖点的代糖其实不健康。

但媒体在报道时，并没有提到研究者自己写的注意事项：研究结果可能存在反向因果关系，即被调查者本身处于糖尿病高风险当中，而从含糖饮料转向了代糖饮料，因此应该审慎对待代糖饮料比含糖饮料更容易引发糖尿病的结论。

除了这种不交代全部信息的做法，在数据可视化上做手脚也是数据胡扯的高频手段。

例如下面这张图，通过改变变量分组的宽度，三张柱状图就传达出了完全不一样的信息。

⌂ 同样的数据，得出了不同的结论。图片来源：《拆穿数据胡扯》

如果你对这种利用视觉手段来胡扯的内容感兴趣，可以移步美数课堂之前的一篇文章🔗《可视化打假：图表如何欺骗我们？》，里面有不少案例。

以上这些案例让我们看到了，不只是历史，数据也能成为任人打扮的小姑娘。那么我们该如何辨别那些数据胡扯呢？

✧✧✦

看穿胡扯，你需要这些小技巧

虽然知道了这些数据胡扯手段后，想再利用数字轻易忽悠你是不太可能了，但作者们在《拆穿数据胡扯》一书的最后，还是总结归纳了一些实用的识别方法：

1、质疑信息来源

当某个人或某篇文章想向你兜售一条信息或一个观念时，提醒自己多问3个小问题：这个消息是谁告诉我的？Ta是怎么知道的？Ta想向我兜售什么东西？

因为无论多么缜密，那些胡扯的最终目的，就是为了让你相信某件事。

2、小心不公平的比较

机场安检托盘比厕所还脏！

手机上的屏幕比厕所还脏！

门把手的细菌比厕所还脏！

这些时不时就会出现在媒体里的消息，给人一种全世界最干净的地方是马桶的错觉。但其实，这些报道提到的研究，比较的都是两者的细菌或病毒，而除此之外的微生物，并没有列入研究范围之内，而且也没有说明这些微生物的致病性。

这种刻意选取单一维度进行比较的方法，并包装上更宽泛的结果，是很多数据胡扯者惯用的伎俩。

⌂ 手机屏幕上有多少细菌。图片来源：大马公共健康脸书专页

3、如果好得（糟糕得）不像是真的……

这是一个很好理解的方法，就像多数人在网上收到“恭喜中奖”的消息后第一反应都是立马关掉一样，遇到那些情况变得过好或过坏的数字时，记得一定要先甄别，再做判断。

4、从数量级考虑

在不少人的家族微信群里，不时会看到一些有关健康的奇怪说法，例如“人一生能吃9吨左右的食物，谁先吃完谁先走”。

⌂ 食物谣言在网上层出不穷。图片来源：微信搜索

这个说法算一下，就知道不靠谱：假设寿命是70岁，那平均每天能吃的食物只有350多克，这包括了谷物、肉类和蔬菜各种食材。

很多时候，捏造的数据，连逻辑自洽都不一定能做到。

5、避免证真偏差

所谓的证真偏差，就是指我们往往会在意、相信或分享与我们已有信念相一致的信息。

作者们引用了《娱乐至死》一书的作者尼尔·波滋曼的名言来概括：“在任何时候，你必须与之抗争的胡扯主要源于你自己。”

6、考虑多个假设

作者们给出的最后一个方法，简单说就是不要把合理解释当作唯一，因为它可能是逻辑自洽但只是事实的一小部分，甚至与事实相距甚远。

在《拆穿数据胡扯》一书里，卡尔·伯格斯特龙和杰文·韦斯特列举了大量的案例来解释数据是怎么参与胡扯的，值得一读。

对了，本文第一部分开头那句“人一辈子至少要撒谎8万句”，也是个数据胡扯，你读的时候信了吗？

◒◡◒

┊推 - 荐 - 阅 - 读┊

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

女人比男人更坏这件事上，大数据撒了什么谎？

什么是数据胡扯？

数据胡扯的常见方法

看穿胡扯，你需要这些小技巧

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

生成图片，分享到微信朋友圈

女人比男人更坏这件事上，大数据撒了什么谎？

什么是数据胡扯？

数据胡扯的常见方法

看穿胡扯，你需要这些小技巧

您可能也对以下帖子感兴趣