查看原文
其他

Garbage in, Garbage out!!!

前沿文献研讨小组 计量经济圈 2022-09-04

凡是搞计量经济的,都关注这个号了

投稿:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日,咱们引荐了实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

Attention面向海内外本科生开放Research assistant职位,现阶段主要工作是翻译及汇编计量经济学前沿资讯,而你能得到远超过你同学所拥有的学术人脉资源。符合如下要求的伙伴可以将简历发送到邮箱:econometrics666@126.com。

Requirement中英文读写能力过关,做事细心严谨,能在规定时间内完成项目。


这个外国人拿中国数据发了多篇AER, JPE, RES等五大顶刊!汗颜!


输入的是垃圾,输出的也是垃圾


翻译者:中央财经大学工商管理 潘映昆

通信邮箱:3036285940@qq.com

避免垃圾入、垃圾出:优质数据的重要性

优质数据是有效分析的一个重要因素

高质量的分析取决于许多因素,其中最重要的是对要分析的业务问题有深入的了解,以及有一支经验丰富、知识渊博的数据专业人员团队,他们具有进行分析的正确工具和技术。

但对有效分析来说,最重要的要素还是优质数据。在这个由三部分组成的文章里,我们将了解什么是优质数据,以及如何确保你的分析基于尽可能最好的数据。本质上讲,数据质量可归结于三个因素:输入数据(input data)、方(methodology)和质量控制(quality control)。在第一部分中,我们将考察输入数据。

Part1 了解输入数据

俗话说:垃圾进,垃圾出。高质量的输入数据是生成可靠模型和数据集的基础。无论模型有多好,如果用于构建和实现模型的输入数据并不优质(不完整、过时、有偏差或不准确),那么所得的预测或数据集几乎不可能靠谱。

如今,你有时会听到数据提供者直言没有完美的数据。但现实是,数据取决于如何、何地、何时以及从何种对象被收集起来,这些方面中的任何一个都可能是偏差或错误的根源。。因此,在开始任何分析工作之前都非常有必要了解输入数据的来源,并确定数据的真实程度。

数据,无论多么“新”,呈递的仅是一瞬即逝的“快照”(snapshot),而那不可避免地发生在过去的时间里。正因如此,知道数据何时(精度和频率)以及如何(过程)收集起来的,对确定数据"清洁度"(cleanliness)至关重要,同时还有助于研究人员对方法、分析类型做出有依据的选择。

输入数据的新近程度在很大程度上决定了它们反映当前事务状态的能力。在所有其他条件相同的情况下,使用5年的数据必然比使用5分钟的数据具有更少的代表性。此外,数据收集的频率也非常重要,因为这会影响研究人员可以使用的模型类型、这些模型多久能被校准和相关预测的检验频率。作为研究人员,一个无法改变的事实是,我们不得不利用历史来预测未来。我们的职责,还有确定历史数据能很好地反映当前或预测未来是我们的工作,并在必要时进行调整。这就是研究者技能、经验和领域知识发挥作用的地方。建立大多数模型是相当简单的,真正的挑战是机智地使用数据结果。

第二个理解输入数据的关键部分是知道如何收集数据。数据的收集过程总是有缺陷的,而这常常会导致结果数据中的错误、离群值和偏差。尽管在很多情况下,研究人员对收集方法中的缺陷几乎无能为力,但了解这些缺陷至关重要。例如,通过调查收集的有关购买行为的数据将与在销售点(POS)收集的数据完全不同。人们说他们所做的通常与他们实际所做的有很大不同。因此,研究人员处理来自调查系统和POS系统的数据的方式也应该完全不同。在某些情况下,数据收集中的“地点”、“方式”、“时间”和“来自谁”将极大地限制我们能使用的技术和分析种类。

当我们在收到数据时,我们会在应用之前对其进行一系列检查和提问。以下是我们检查的一些元素以及为了帮助我们评估输入数据而降低的粒度级别:
  1. 有多少个唯一记录?

  2. 有多少重复记录?是否应该重复?

          2.1.数据集中有多少个字段可用,它们是什么数据类型?

    1. a.对于字符串字段,它们是否应具有特定的结构?例如,代表邮政编码的列应包含6个字符,而这些字符应具有特定的结构。
      b.有多少条记录符合规定的格式?
      c.是否有方法可用于清理不符合规定格式的记录?
      d.在以后的分析中,应该对清理过的记录进行不同的处理吗?

      2.2.对于数值变量来说,范围、方差和中心趋势是多少?

      a.它们合乎逻辑吗?例如,如果 99% 的数据范围介于 0 和 100 之间,但 1% 的数据为负数或超过 1,000,这是否有意义?
      b.这些离群值是否真实,数据收集过程、数据输入或处理错误中是否有人为添加值?
      c.如果检测到异常值,应如何处理它们?是否应将它们排除在所有分析之外,或替换为其他估计值?(答案取决于异常值的性质、分析的目的以及所使用的模型类型。)
      d.变量合计是否有意义?

       2.3.对于分类变量,所有类别都表示出来了吗?

      a.类别是否被一致地和正确地标注了?
  3. 是否有任何缺失值?数据集里是否有特定单元格的空条目或空白条目?

             3.1.某些记录比其他记录有更多缺失值吗?

  4.          3.2.某些字段比其他字段有更多缺失值吗?

             3.3.如何处理缺失值?是否应将它们排除在分析之外,或由其他估计值取代?(答案取决于分析练习的目的和所使用的模型类型)。

  5. 这些数据的代表性如何?

  6.           4.1.数据收集方式是否有已知的偏差?例如,由于在线调查要求参与者能够访问互联网,因此结果无法推广到整个人群。

               4.2.数据中代表了哪些地理位置?

              4.3.数据在多大程度上反映了某个地理区域内人或家庭的相对分布?

               4.4.属性与其他权威数据源的相似属性相比,情况如何?例如,如果客户数据库包含年龄,那么年龄与总人口年龄的匹配程度如何?如果数据中存在已知差距或偏差,是否有足够的信息来纠正这些差距和偏差?

回答这些问题可帮助研究人员了解输入的数据,并开始规划自己的方法来使用数据构建可靠的数据集和模型。在这个由三部分组成的文章中,我们将考察方法在确保数据质量方面所发挥的重要作用。

Part 2 正确方法的重要性
在第一部分关于数据质量的文章中,以及新近度,频率和数据收集过程如何影响可以完成的分析的质量和类型。在这篇文章中,我们转向方法在创建高质量数据方面的作用,以及选择正确方法的因素。讨论将涉及一些技术问题,但是值得掌握这些重要概念,以了解创建高质量数据的过程。
应用正确的方法
对于我们和本考察的要义,"方法"是指我们用于构建数据产品的技术,以及用于执行自定义项目的技术。这些技术的范围包括从简单的基于规则的算法到机器学习方法。在很大程度上,可用数据的类型、数量、可靠性和时效性决定了我们使用的方法。
将方法论视为一个频谱,一端具有模型准确性(accuracy),另一端具有模型概括性(generalization)会很有帮助。准确性和概括性之间没有直接的权衡关系。最好的模型同时具有很高的准确性和概括性。然而,建模技术往往从频谱的一端开始,并通过模型训练、校准和测试,向频谱的另一端进发。下图说明了各种建模技术带着精度概括连续体开始的位置。

图1.方法频谱和常见建模技术的落点
在决定使用哪些技术来构建标准数据集,或执行自定义项目时,我们侧重于比较准确性技术与概括性技术的优缺点,如表 2 所示。
1.准确性和概括性的优点和缺点

此表使用几个技术术语,它们对于使用数据、方法和模型的任何人来说都很重要。让我们从相关性与因果关系开始。相关性只是一个统计指标,一个比较两个变量的数学公式。相关性没有说明两个变量之间存在现实世界的关系,也没有说明这种关系的性质。另一方面,因果关系明确地考察了属性或现象的相互作用。
例如,如果我们试图预测办公室中一个员工一天吃掉多少果冻豆,我们可能会发现特定变量与果冻豆的消耗高度相关,例如一天中消耗的苏打水量、从员工办公桌到果冻豆碗的距离以及工人在办公室所花的小时数。在这种情况下很容易推论:高苏打消费导致果冻豆消费。
但是,这将是一个不恰当的结论。果冻豆消费和苏打水是关联的,但这是一种间接的关联。在这种情况下,驱动果冻豆消费的因素更有可能是工人对营养的态度;汽水消费是一种替代。如果从办公环境中移走苏打水,果冻豆的消耗量很可能会增加而不是减少。事实上,通过进一步测试,我们可能能够确定果冻豆碗(接触)的距离、在办公室花费的小时(暴露)与果冻豆消费有显著和直接的因果关系。工人接触果冻豆机会越大,越暴露在果冻豆前,工人吃的果冻豆就越多。铭记于心:相关性不是因果关系
在评估建模技术和方法时,我们需要了解的其他术语还有"样本外(out of sample)"、"时间段外(out of time)"和过度拟合——三个相互关联的术语。当我们将模型描述为过度拟合时,实质在说该模型没有被很好地概括。过度拟合模型将随机噪声视为系统噪声。当使用创建模型的数据进行测试时,过度拟合的模型表现得异常良好——意味着存在少量错误。但是,当使用独立数据——称为"样本外"数据——而不是用来搭建模型的数据来测试模型时。既在样本外又来自不同样本时期的数据叫“时间段外”。通过对模型进行样本外和时间段外的测试,我们将避免过度拟合并明白该模型的真正拟合程度。
例如,图2显示了与用于训练模型的数据相比,及与样本外数据相比,针对模型预测所获得的误差。此图告诉我们两件事:1)模型在样本外应用时不太准确;2)在训练步骤12后,模型的表现逐渐恶化;除了训练步骤 12 之外,模型显然过度拟合。因此,从训练步骤 12 生成的模型应该是用于进一步分析或生成未来预测的模型,因为它具有最佳的样本外检测表现。

2.在比较训练数据误差和样本外数据误差时,模型过度拟合
构建数据集时努力平衡预测准确性和模型概括性。我们在自己产生的几乎每个地理级别和变量集合测试不同的建模框架。如果数据被高频率且可靠地提供,我们明智地应用更侧重于预测准确性的技术。当数据被不太频繁且可靠性较低地提供,或者我们必须预测长远的未来,我们会把焦点放在构建概括性良好的模型上,并尽最大努力真实地获得因果关系,而不是相关性。
单一尺度不会普适于创建分析模型和数据集的各种情况。建模技术旨在基于一组假设运用特定类型数据解决特定类型问题。大多数建模技术可以适应各种应用和输入数据类型。但是,这只能在一定限度内完成。在选择正确的方法时,了解不同建模技术的局限性以及输入数据所带来的限制非常重要。
在本文的前两部分中,我们已经看到了输入数据和方法如何对数据质量产生巨大影响,没有分析,任何分析项目都不能开始。在接下来的最后一部分中,我们将考察质量控制在创建高质量数据方面发挥的作用。

Part 3 质量控制必不可少
在我们关于数据质量文章的第三部分中,我们将注意力转向第三个组成部分:质量控制。
在前面讨论数据质量的两个部分中我们研究了输入数据和方法在创建高质量数据中的作用。在最后的帖子中,我们将把注意力转向第三个组成部分:质量控制,也称为质量保证,或称 QA。质量控制包括评估模型和其生成的数据,这样的检测应尽可能被频繁地执行。
确保质量控制
质量控制或保证 (QA) 实际上可以归结为两个关键要素:与权威数据源和和权威判断的比较。在有权威数据的情况下,校准某些模型、测试结果和评估预测准确性非常简单。这是任何建模练习中非常有价值的一步。从本质上讲,它是在统计和机器学习中使用的交叉验证技术的拓展。所有优秀的建模者都构建模型、进行预测、测量这些预测的准确性,然后在此基础上对其进行模型优化。没有任何人跳过最后优化这一步。
第二个要素,判断,更具挑战性并且多少会有点主观意味。在我们的业务中,从我们进行预测到有权威数据对它们进行预测之间可能有一个相对长的时间段。在 DemoStats 的情况下,我们必须等待至少 5 年才能评估和测量准确性。
我们花在质量控制上的时间和构建模型的时间一样多。当我们对数据进行质量控制时,我们会运用我们的经验、领域知识和最佳的判断力来测试数据和模型的可靠性。构建相互的竞争来检验我们的核心方法是我们用以质量控制的一种手段。这个过程通常会导致一些非常重要的问题:有多少预测是可比的?为什么以及哪些预测是不同的?哪个预测更可信?我们可以利用的两种预测之间是否有系统性的差异?此外,当有新的权威数据可用时,我们会比较我们使用的各种方法以确定是否需要对核心进行修改
QA 是构建数据集和确保其质量不可或缺的一部分。我们对 QA 的投入意味着我们不断改进方法和数据集。这也意味着我们的研究人员不会自满。如果没有彻底的 QA 流程,研究人员很容易仅因为它们是过去使用的方法和数据源,就陷入使用相同方法和数据源的陷阱。任何企业最不喜欢的便是自满的研究人员!
* * *
在这个由三部分组成的文章中,我们研究了创造高质量数据的挑战。我们越来越明白,没有数据是完美的,确定输入数据的清洁程度至关重要。在方法论方面,单一尺度并不适合所有情况,并且必须明智地根据数据的性质和使用方式进行考虑权衡。最后,创建高质量数据需要尽可能频繁地测试和评估模型,再根据评估和新数据进行调整。商务决策的质量赖于背后分析的质量,而分析的质量取决于数据的质量。我们永远不会忘记这种最为基本的关系。
Source:https://environicsanalytics.com/en-ca/resources/blogs/ea-blog/2016/05/01/avoiding-garbage-in-garbage-out-the-importance-of-data-quality-part-1
拓展性阅 
2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南CEIC数据库操作指南,参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。2月27日,引荐了“哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!”和“最清晰的内生性问题详解及软件操作方案!实证研究必备工具!
之前,咱们圈子引荐过一些数据库(当然,社群里的数据库远不止这些),如下:1.这40个微观数据库够你博士毕业了2.中国工业企业数据库匹配160大步骤的完整程序和相应数据3.中国省/地级市夜间灯光数据4.1997-2014中国市场化指数权威版本5.1998-2016年中国地级市年均PM2.56.计量经济圈经济社会等数据库合集7.中国方言,官员, 行政审批和省长数据库开放8.2005-2015中国分省分行业CO2数据9.国际贸易研究中的数据演进与当代问题10.经济学研究常用中国微观数据手册
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存