查看原文
其他

世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”

凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

背景知识:1.洪永淼院士三大经典计量公开课对外开放, 优秀学人抓紧时间学习!2.重磅|2位"中国教授"新当选为世界计量经济学会会士,3.关注着计量圈的洪永淼教授重磅发文“数学, 模型与经济思想”,4.洪永淼等,计量经济学与实验经济学的若干新近发展及展望,5.洪永淼教授履新后首次讲座"大数据革命和中国经济学研究范式", 附送一份PPT供参阅!6.洪永淼教授履新后在计量经济圈首发文“概率论与统计学在经济学中的应用”! 前沿和经典方法应有尽有!7.世界计量经济学院士教你如何掌握计量经济学方法体系, 各种方法的使用场景, 局限和发展趋势!

洪永淼教授关注并支持着计量经济圈,致力于推动计量经济学方法在中国的发展和普及,通过讲座或文章的形式传播计量经济学的发展前沿,继而使国内青年学者能以更高效的方式与国际学术舞台接轨。
下面这篇文章是他与合作者汪寿阳教授最新的关于“大数据、机器学习与统计学”的综述性文章,里面系统地展示了大数据、机器学习、统计学三者间的动态发展和融合过程,并对其可能的发展方向进行了前瞻性展望,因此非常适合国内中青年学者阅读。
开放TOP期刊研读学术职位, 对前沿和主流计量和实证方法感兴趣者可申请!

洪永淼, 汪寿阳. 大数据、机器学习与统计学:挑战与机遇[J]. 计量经济学报, 2021, 1(1): 17-35.

摘要:随着数字经济时代的来临,基于互联网、移动互联网以及人工智能技术的经济 活动每时每刻产生了海量大数据,这些海量大数据又反过来驱动各种经济活动.大数据 来源不一,形式多样,种类繁杂,既有结构化数据,也有非结构化数据,如文本、图像、音 频、视频等,即使是结构化数据,也有新型数据,如函数数据、区间数据与符号数据等. 大数据大多拥有巨大的样本容量,也有潜在解释变量维数超过样本容量的高维大数据. 大数据的产生以及基于大数据的机器学习的广泛使用,对统计学产生了深刻影响.本文从大数据的特点和机器学习的本质出发,讨论了大数据和机器学习对统计建模与统计推断的挑战与机遇,包括由抽样推断总体分布性质、充分性原则、数据归约、变量选择、 模型设定、样本外预测、因果分析等重要方面,同时也探讨了机器学习的理论与方法论 基础以及统计学和机器学习的交叉融合.

作者:洪永淼,世界计量经济学会会士、发展中国家科学院院士,中国科学院数学与系统科学研究院特聘 研究员;汪寿阳, 发展中国家科学院院士、国际系统与控制科学院院士,中国科学院数学与系统科学研究院特聘研究员。

注:文后附上了原文PDF。
1导言
统计学是一门关于数据分析的方法论科学,为自然科学和社会科学的实证研究和经验分析 提供严谨的分析方法和工具.随着互联网与移动互联网技术及其应用的快速发展,大数据(Big data)和用于大数据分析的机器学习(machine learning)正在对统计科学产生深刻的影响.与传 统数据相比,大数据体量巨大,来源不_,种类繁多,有结构化、半结构化、非结构化等各种形式, 大多数是实时或近乎实时生成和记录的数据.一种观点认为,大数据是全样本与几乎接近全样 本,因此统计学的随机抽样理论,特别是以随机样本推断总体分布性质的统计方法不再适用.同 时,也有观点认为,大数据特别是高频乃至实时数据的出现以及机器学习的应用,使得基于数据 的系统特征与变量之间相关性的精准预测成为可能,因此在实际应用中,只需要相关性,不需要因果关系.那么,大数据是否改变了统计科学的理论基础?比如,随机抽样推断、充分性原则、 数据归约、样本外预测、因果分析等统计方法,是否将会改变,甚至有些统计学的基本原理是否 将不再适用?另外,大数据给统计建模与统计推断的理论与应用带来了哪些挑战与机遇?作为大 数据分析的重要工具,机器学习与统计建模的主要区别是什么?机器学习与统计推断有什么联系 与共同点?众所周知,基于大数据的机器学习常常能够提供较为精准的样本外预测,但在大多数 情况下,它就像一个“黑箱”,很难甚至无法给予直观解释.那么,统计学能否为机器学习提供有 意义的理论解释呢?机器学习与统计学是否可以结合起来?如果可以,这种交叉融合对统计科学 的未来发展将产生什么影响?本文试图回答这些重要问题,并提供一些探索性的解决思路.在第 二节,我们简要讨论统计建模与统计推断的习惯做法,指出传统统计建模与统计推断的基本假设 和基本思想.在第三节,我们将讨论大数据特别是经济大数据的主要来源和主要特点.在第四节, 我们将讨论机器学习的本质以及几种重要的机器学习方法.第五节将探讨大数据与机器学习对 统计建模与统计推断的影响,特别是对统计科学所带来的挑战与机遇,同时也探讨在大数据背景 下如何将机器学习和统计学有机结合起来,开辟统计科学和计量经济学研究的新领域与新方向. 第六节是结论.
我们得出以下主要结论:
1)大数据没有改变统计学通过随机抽样推断总体分布特征的基本思想.许多基本统计方法, 包括充分性原则、数据归约、因果推断等,依然适合于大数据分析,其中有些统计方法,如充分性 原则与数据归约,其重要性甚至因为大数据的出现而大大增强.当然,这些统计方法在大数据条 件下需要创新与发展.
2)大数据提供了很多传统数据所没有的信息,大大拓展了统计学研究的领域边界.例如非结 构化文本数据(text data)使得构建一些重要社会经济心理变量成为可能,包括测度投资者情绪、 居民幸福感、经济政策不确定性等,而高频甚至实时数据使得实时预测和高频统计建模与统计推 断成为可能.
3)由于样本容量巨大,大数据预计将改变基于统计显著性来选择统计模型重要变量的习惯 做法.特别地,抽样数据变异性对统计建模与统计推断产生了巨大影响,研究范式也将从参数估 计不确定性转变为模型选择不确定性;这同时也对统计建模与统计推断提出新的挑战,包括数据 生成过程的同质性与平稳性以及统计模型唯一性等基本假设的适用性问题.
4)机器学习的兴起得益于大数据的产生以及计算能力的爆炸式发展.机器学习与统计推断 有很多共同之处包括在数据生成过程的随机性假设和由抽样推断总体分布性质等基本思想.与统计建模与统计推断一样,机器学习也存在并且特别注重样本偏差问题.
5)与统计学的参数建模方法相比,绝大多数机器学习方法不对数据与变量之间的关系给予 具体的模型假设或限制,而是根据目标函数通过算法直接学习、探索数据的系统特征和变量之间 的统计关系,使目标函数最优化.机器学习的本质是一个数学优化问题与实现该优化问题的计算 机算法问题,它比统计学的参数建模更普遍、更灵活,包括对重要解释变量的选择与测度.
6)与机器学习一样,统计学的非参数分析(nonparametric analysis)也是不用假设任何具体 模型形式而能够一致估计刻画数据生成过程的未知函数(如概率密度函数或回归函数).很多重 要的机器学习方法,如决策树、随机森林、品最近邻法(k-NN)、人工神经网络、深度学习等,其实 就是统计学的非参数方法.这些非参数方法的统计性质,特别是其对未知函数的一致性估计的性 质,能够从理论上解释与帮助理解为什么一些机器学习方法拥有精准的样本外预测能力.但是, 机器学习不完全等同于统计学的非参数分析方法,例如,机器学习在处理高维解释变量时具有更 大的灵活性,而非参数分析贝存在众所周知的“维数灾难(curse of dimensionality)"问题.
7)在大数据背景下,机器学习与统计推断的有机结合有望为统计科学与数据科学提供一些 新的发展方向,特别是在统计学习这一新兴的交叉领域,包括变量降维、稳健推断、精准预测、因 果识别等重要方面.
2实证研究与统计分析
统计科学为现代科学的实证研究奠定了坚实的方法论基础,提供了重要的方法与工具,其应 用包括以非实验观测数据为基础的经济学与其他社会科学.统计推断的基本思想是假设所研究的 系统是服从某一概率法则的随机过程,现实观测数据是从这个随机过程产生的,而这个随机过程 称为数据生成过程(data generating process, DGP).统计实证分析的主要目的是通过对观测数 据进行统计建模,推断出DGP的概率法则或其重要特征,然后运用于各种实际应用中,如解释经 验典型特征事实、检验经济理论与经济假说、预测未来变化趋势、评估公共政策等.详细讨论可 参见文献洪永淼(2007).
在统计建模与统计推断中,一般假设DGP的概率法则可由唯一的数学概率模型来刻画,模 型通常将因变量与一些解释变量或预测变量联系起来.同时,假设该数学模型的函数形式已知, 但包含低维的未知参数.这是一种参数建模(parametric modeling)方法,在统计学中应用最为广 泛.统计推断的主要目的是用观测数据估计模型的未知参数值,将经济理论或经济假说转化为统 计参数假设,然后进行参数假设检验,并对实证结果提供经济解释.在统计实证研究中,常见做法 是基于一个预设的显著性水平(如5%)判断一个参数估计值或参数假设在统计学上是否显著,特 别是使用检验统计量的F值来判定参数估计值或参数假设的统计显著性.如果具有统计显著性, 则相应的解释变量将视为一个重要决定因素,并留在统计模型中.如果一个具有统计显著性的解 释变量没有被包含在统计模型中,则称该变量为遗漏变量,且模型误设.模型误设还有其他原因, 如函数形式错误、忽视结构变化或异质性等.通常会通过样本内诊断检验或拟合优度来判断设定 模型是否足以描述观测数据或者刻画DGP的概率法则.
在实际应用中,常用的标准统计模型包括经典线性回归模型、Probit或Logit离散选择模型、 生存分析或久期分析中的比例风险模型(Cox (1972))等.作为模型的重要输入,经济观测数据一 般指在现实条件下所观测到的数据,这些数据不是在可控实验条件下产生的.非实验性是经济学 乃至社会科学的最显著特征.大多数实际观测数据的样本容量通常不太大.观测数据以及相关的 统计模型可能也存在各种缺陷或不尽如意的特征,如随机扰动项的条件异方差与自相关、删失数 据、截断数据、变量误差、遗漏观测值、内生性、维数灾难、弱工具变量、不可观测的虚拟事实、 部分识别、甚至数据操纵与数据造假等,充分考虑这些数据缺陷或特征有助于改进统计推断.许 多年来,统计学和计量经济学的实证研究一直沿用上述统计建模与统计推断过程.
我们发现,这些做法直接或间接地基于至少六个关键假设:
假设1随机性.DGP是一个随机过程.
假设2模型唯一性.DGP的概率法贝由唯_的数学概率模型来刻画.
假设3模型正确设定.概率模型设定是正确的,即存在唯一的未知参数值,使得概率模型与 DGP的概率法则相吻合.
假设4抽样推断总体.使用包含DGP信息的样本数据来推断总体分布特征,特别是DGP 的概率法则,这是基本的统计推断方法,也导致概率论成为推断统计学的理论基础.
假设5代表性样本.描述观测数据的随机样本不存在样本选择偏差,而观测数据的样本容 量通常不会太大.
假设6统计显著性.基于统计推断,尤其是使用统计检验量的F值,在预设的显著性水平 (如5%)上判断解释变量或预测变量是否重要,并据此提供逻辑解释.
接下来,我们将讨论大数据特别是经济大数据的主要特征和机器学习的本质,以及它们给统 计建模与统计推断的理论与应用所带来的重要影响、挑战与机遇.作为一种基于计算机算法的优 化分析工具,机器学习是分析大数据不可或缺的重要方法.
3大数据的主要特征
大数据的产生得益于信息技术的快速发展,尤其是互联网与移动互联网技术的广泛应用.互 联网设备与传感器的指数增长是产生与收集海量大数据的主要原因.大数据的来源很多,包括计 算机商业交易平台、移动电话、社交媒体、网站信息、搜索数据、传感器与卫星图像、交通数据等. 在金融市场、各种线下线上商品交易平台,扫描器与电子支付系统记录了逐笔交易数据.GPS和 北斗传感器记录了地球上各种重要的气候环境数据与物理数据,如中国主要大城市PM 2.5的观 测值、全球大城市的夜间灯光亮度数据.望远镜与射电望远镜全天候观测太空,实时记录了各种 天文物理数据流.各类企业和政府网站也提供了有用的信息,特别是互联网巨头,即所谓的大型 科技(Big Tech)公司,如中国的百度、阿里巴巴、腾讯、京东,美国的谷歌、亚马逊、脸书、苹果 等.在数字经济时代,海量经济大数据的产生得益于基于计算机的互联网与移动互联网的各种经 济活动与商业交易,而且大数据作为一种新的生产要素,反过来进一步推动经济发展.无人驾驶 的发展就是大数据应用的一个典型案例.截至2019年底,中国互联网与移动互联网用户人数超 过9亿人远远超过美国与欧盟网民人数的总和.现在已出现了一个新的GDP概念,即数据生 成总值(gross data product),用于测度每个国家或地区的数据资源总量及其利用程度.
大数据具有以下四大特征,即所谓的“4V“特征:
1)海量性(volume).从各种渠道收集的信息,包括商业交易数据、社交媒体数据、传感器 数据以及机器对机器数据等,在过去,如何存储如此大规模的数据是一个技术难题,但新技术(如 Hadoop)的快速发展已经减轻了存储负担.
2)高速性(velocity).大数据以前所未有的速度产生与传播,必须及时存储与处理.RFID电 子标签、传感器、智能停车收费系统实现了实时或近乎实时处理海量数据的需求.在许多情况下, 大数据可能会以聚类方式产生,即数据产生的速度并不均匀,而是随着时间的推移出现周期性波 动.比如,股市交易有明显的周期模式,通常开盘和收盘时成交量较大,午间成交量较小.基于事 件触发的日常周期性峰值数据在加载管理上难度很大,更不用说非结构化数据了.
3)多样性(variety).大数据形式多样,既有传统结构化数字型数据,也有非结构化的文本文 档、邮件、图片、视频、音频、股票行情数据等.非结构化数据提供了传统数据所没有的非常丰富 的新信息,这已成为大数据的一个最重要的特征.结构化数字型数据也有新型数据,如函数数据、 区间数据和符号数据(symbolic data)等.
4)真实性(veracity).与传统数据相比,大数据一般体量庞大,但很多大数据信息密度低,噪 声大.此外,也可能存在遗漏数据和操纵数据,导致信息失真,因此有必要进行数据清洗与处理.
大数据的海量性具有双重含义.一方面,大数据拥有非常大的样本容量.许多大数据的样本 容量可能是数万甚至是数百万的观测值.如果大数据的样本容量很大且远大于解释变量或预测 变量的维数,那么这.种大数据称为"高大数据(Tall Big data)”.庞大的样本容量意味着可以从 大数据尤其是非结构化数据中获取很多新的信息,从而改进对DGP的统计推断.通常,由于计 算机容量与计算速度的限制,只有一小部分高大数据用于可行性统计分析(如Engle and Rusell (1998), Engle (2000)).另一方面,大数据的海量性不一定是指样本容量非常大.它也可能是指在 给定时间内从不同维度对DGP的大量描述.换句话说,大数据拥有一个高维的潜在解释变量或 预测变量的集合.比如,利用谷歌搜索中国一些城市的旅游趋势.这为探索重要解释变量提供了 巨大的可能性与灵活性.当潜在解释变量或预测变量的维数超过样本容量时,这将给统计建模与 统计推断造成巨大挑战,这在统计学上称为“维数灾难”,而具有此特征的大数据则称为“胖大数 据(Fat Big data)”.对于高维解释变量的集合,许多解释变量可能对因变量没有影响,也有可能 很多解释变量之间存在多重共线性.因此,有必要发展各种可行的变量选择方法,这本质上是一 种变量降维(dimension reduction)或数据归约(data reduction).
大数据的高速性指的是能够在高频甚至实时条件下记录或收集数据.这使得及时的数据分 析与预测成为可能.比如,在经济统计学中,可以构建高频宏观经济变量,以便及时了解宏观经 济变化趋势,提升经济政策干预的时效性.经济统计学的现行做法只能获取居民消费指数(consumer price index, CPI)和生产者物价指数(producer price index, PPI)等月度时间序列数据. 然而,基于互联网信息和人工智能工具,完全可以构建CPI和PPI的日度数据,甚至抽样频率可 以更高.在时间序列分析中,高频数据的可获得性可以避免依时间加总(temporal aggregation) 而导致的信息缺失.例如,比起使用每日收盘股票价格数据,我们可以用股价的日内(intraday) 数据甚至逐笔交易数据来估计金融资产的每日波动率.日内时间序列数据包含了当日价格变动范 围,比当日收盘价数据拥有更多的波动信息.再如,可以利用点过程的时间序列数据来研究不同 资产或不同市场间的Granger (1969)因果关系或时间维度上的领先滞后关系.高频数据也使时 变结构研究成为可能.如果模型参数随时间缓慢改变,我们可能需要更高频的观测值来推断任意 时间点的参数值.
大数据的多样性指的是数据种类繁多、形式多样,有结构化、半结构化与非结构化数据,而 结构化数据也包括一些新型数据,如函数数据、区间数据乃至符号数据等,同时可能结合了不同 的抽样频率.长期以来,统计学主要关注传统结构化数据.当今的数据拥有各种来源,也可能有不 同的物理存储地址,导致不同系统间各种数据的连接、匹配、清洗、转换变得困难.如何将不同 来源、不同结构、不同形式、不同频率的各种数据汇聚一起,这是一个巨大挑战.从统计学角度 看,大数据将比传统数据提供更多有价值的信息,因此可以用来发展更高效的统计推断方法与工 具.特别是,社交媒体(如微博和脸书)数据越来越受关注,这些信息通常是非结构化或半结构化 的数据,很难甚至无法从传统数据中获取.将非结构化数据与传统结构化数据相结合,可以更好 推断DGP的本质特征.
大数据的真实性是指大数据存在大量噪声,包括虚假信息和失真数据.因此,如何去伪存真、 有效概括并提取大数据的有用信息显得非常重要.统计分析的本质是有效地从数据中提取有价 值的真实信息.虽然很多经典统计方法很有用,如主成分分析和聚类分析,但也需要发展概括、提 取大数据中有用信息的新方法与新工具.由于大数据具有容量大、维度高与信息密度低等特点, 统计学的充分性原则在大数据分析方面可发挥巨大作用,尤其在数据归约与变量降维方面,因此 我们迫切需要发展基于计算机算法的有效的数据归约方法.
4机器学习及其本质
与统计学一样,机器学习也是一种重要的大数据分析工具.在大数据时代,统计学和机器学 习已经成为新兴的数据科学的最重要分析方法.机器学习由于大数据和云计算的出现而得到迅 速发展与广泛应用,但是机器学习不能替代统计分析.例如,尽管机器学习在改善样本外预测和 模式识别(如面部识别)方面非常有用,但统计学在推断分析、维数约简、因果识别和结果解释等 方面可以发挥很大作用.机器学习与统计学是互补的,两者的交叉融合可以为统计科学与数据科 学提供新方法与新工具.
“机器学习”这一术语是由人工智能开拓者之一 Arthur Samue 1于1959年提出来的.机器学 习是计算机科学的一个重要领域,尤其是人工智能的一个重要组成部分.机器学习利用数学、人 工智能工具赋予计算机系统自动“学习”数据、“识别“模式、并做出预测或决策的能力,无须明 确的人工编程.它是从人工智能的模式识别研究和机器学习理论中演变而来的,主要探索能够自 己有效学习数据并做出预测的算法研究与算法构建.机器学习可以分为三个主要类别:监督学习 (supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning).
监督学习基于训练数据(包含输入和输出)来构建算法.训练数据包含一组训练样例,每个 训练样例拥有一个或多个输入与输出,称为监督信号通过对目标函数的迭代优化,监督学习算 法探索出一个函数,可用于预测新输入(非训练数据)所对应的输出.优化目标函数能够使算法 准确计算出新输入所对应的输出预测值.监督学习算法包括分类和回归.当输出只能取一个有限 值集时,可用分类算法"当输出可取一定范围内的任意数值时,可用回归算法.
无监督学习在只包含输入的训练数据中寻找结构,如数据点的分组或聚类.无监督学习算法 不回应反馈,而是识别训练数据的共性特征,并基于每个新数据(非训练数据)所呈现或缺失的这 种共性特征作出判断.无监督学习主要应用于统计学概率密度函数估计,也可用于涉及数据特征 总结与解释的其他领域.聚类分析是一种重要的无监督学习方法.它将一个观测数据划分为多个 子集(称为簇,clusters),使得同一簇的观测数据在一个或多个预设准则上具有相似性,但是不同 簇的观测数据不具有相似性.不同的聚类方法对数据结构做出不同的准则假设,一般由某种相似 性度量准则所定义,通过内部紧密度(同一簇中数据的相似度)和分离度(簇间差异)进行评估.
强化学习是研究算法如何在动态环境中执行任务(如无人驾驶)以实现累计奖励的最大化. 由于强化学习的一般性,许多学科也对该领域有所研究,如博弈论、控制论、运筹学、信息论、仿 真优化、多智能体系统、群集智能、统计学与遗传算法等.在机器学习中,动态环境一般表现为马 尔可夫决策过程(Markov decision process).许多强化学习算法使用动态规划技术.强化学习算 法可用于自动驾驶或与人类博弈比赛.
从本质上说,机器学习是数学优化问题与算法优化问题.机器学习与数学优化联系紧密,数 学优化为该领域提供了理论、方法与应用.同时,机器学习与计算统计学密切相关,常常交叉重 叠,注重利用快速有效的计算机算法进行预测.在机器学习领域,许多学习问题可表述为最小化 某个预设的损失函数.为了避免过度拟合(overfitting)现象,其最终目的通常转化为基于未知数 据的预测误差最小化问题.具体地说,机器学习基于训练数据,学习与挖掘训练数据的系统特征 和变量之间的统计关系(如相关性),以预测新的未知数据.为了得到精准预测的算法,一般将现 有数据分为两个子集 训练数据(training data)和测试数据(test data).训练数据用以学习 与挖掘数据的系统特征以及变量之间的统计关系,然后利用这些系统特征与统计关系预测未知数 据的行为.为了保证精准预测,必须避免对训练数据的过度拟合.“过度拟合”现象是指挖掘只存 在于训练数据但不会出现于未知数据的特征与统计关系,而这些特征与统计关系可以改进训练数 据的样本内拟合,但无助于样本外预测.因此,对预测效果的评价需要基于另一部分数据,即测试 数据.此外,为了进一步避免过度拟合,通常还引入一个惩罚项,对算法的复杂程度给予相应的惩 罚,即算法的复杂程度越高,惩罚越重.因此,机器学习就是从训练数据中寻找一个优化算法,使 预测测试数据的损失函数加上惩罚项最小化,以达到最优样本外预测效果.常见的机器学习方法 包括决策树、随机森林、品最近邻法、支持向量机、人工神经网络、深度学习等.现在,分别简单 介绍如下:
决策树(decision tree).决策树学习将决策树作为预测方法,体现了从一些特征变量(如解释 变量)的观测值(在分支中体现)到目标变量(在叶子中体现)的目标值的整个预测过程.决策树 学习是统计学、数据挖掘和机器学习的一种预测方法.若目标变量取一组离散值,则决策树称为 分类树,其中,叶子代表类标签,分支代表产生这些类标签的功能连词.若目标变量取连续值(通 常是实数),则决策树称为回归树.在决策分析中,决策树可具体形象地描绘决策和决策过程.在 数据挖掘中,决策树对数据进行描述,但是所得分类树可用作决策的输入.
随机森林(random forest).对大数据特别是胖大数据而言,由于存在很多潜在的解释变量 或预测变量,解释变量可能存在着不同程度的多重共线性,使得对样本数据的“微扰(perturba- tion)”可能导致最优预测模型(不同解释变量的组合)的大幅变动,这称为模型不确定性(model uncertainty).为了获得稳健预测,Breiman (2004)于提出了随机森林方法.基于原始观测数据, 通过重复抽样产生一系列新的随机数据,每个数据培植一棵决策树,然后对所产生的一系列决策 树的预测值进行平均,这种预测方法称为随机森林.
品最近邻法(k-nearest neighbor).这个方法根据一些特征变量(如解释变量)的取值,选择k 个取值最靠近某个预定值的特征变量观测值,然后将对应于这k个取值最邻近预定值的因变量 观测值进行平均,作为对因变量的一个预测.这个方法称为k最近邻法.
支持向量机(support vector machine, SVM).这是一种用于分类和回归的监督学习方法.若 给定一组训练样例,每个样例标记为属于两个类别中的一类,则SVM训练算法可预测新样例属 于哪个类别.SVM训练算法是一个非概率的二元线性分类器.除了实现线性分类,SVM也可以 进行高效的非线性分类,将其输入隐式映射到高维特征空间中.
人工神经网络(artificial neural network, ANN).这.是一个计算机算法系统,其部分灵感源自 构成动物大脑的生物神经网络,通过考察训练数据的样例“学习”如何执行任务.人工神经网络 由大量称为“人工神经元(neurons)”的单元或节点相互连接而成,大致模仿生物大脑中的神经元 系统.如同生物大脑中的突触,每个连接都可以将一个人工神经元的“信号”传递到另一个人工 神经元.接收到信号的人工神经元可以处理该信息,然后将信息传递给其他与之关联的人工神经 元.人工神经元之间的连接信号通常是一个实数,人工神经元一般具有一个根据学习所得而调整 的权重,可提高或降低连接中的信号强度.人工神经元可能具有一个阈值,只有当汇总加权信号 超过该阈值时才会发送信号.这样,每个人工神经元的输出由其所有输入的权重总和的某个非线
性函数(称为激活函数,activation function)计算而得.通常,人工神经元聚集成一个或几个隐藏 层(hidden layers).不同的隐藏层可以对其输入执行不同类型(即不同的激活函数)的转换.信 号可能在多次遍历图层后从最初输入层传递到最后输出层.人工神经网络方法的最初目标是以 与人类大脑相同或类似的方式解决问题,但随着时间的推移,人们将目光转移到执行特定任务上, 从而偏离了生物学.目前,人工神经网络已有各种应用,如计算机视觉、语音识别、机器翻译、社 交网络过滤、下棋游戏、电子游戏、医学诊断等.
深度学习(deep learning).如果人工神经网络包含多个隐藏层,则称为深度学习方法.深度 学习试图模拟人类大脑将光和声处理成视觉和听觉的方式.计算机视觉和语音识别就是深度学 习的一些成功应用.
5大数据、机器学习与统计学的关系
数据描述是数据分析的起点,这一点在大数据时代由于不同种类、不同形式特别是非结构化 数据的出现而显得更为重要.事实上,鉴于大数据的多样性,尤其是文本、图表、音频、视频等非 结构化数据,必须开发新的方法与工具来记录、存储、整理、清洗、描述、表现、分析、概括与解释 大数据.很多大数据特别是非结构化大数据的获得与分析,都必须使用人工智能技术,一个著名 例子是爬虫的应用.美国劳工统计局原来依靠人工操作的调查问卷答案分类工作,现在已有85% 被深度学习替代,而且深度学习的准确率高于人工.又如,大数据可视化作为大数据一种直观表 现形式,在实际应用中越来越受欢迎.商业智能就是大数据在现代商业中的一个重要应用,它通 过应用各种人工智能的技术与方法来提取、概括、表现大数据的重要信息,从而改善商业决策的 科学性与提升企业管理的精细化水平.
由于大数据的“4V“特征,大数据分析需要使用来自不同领域的方法与工具,包括数学、计算 机科学、统计学、数据科学等学科.大数据分析的主要目的是从传统数据中发现不易察觉的模式、 趋势、异象(anomalies)、关联、因果效应以及其他特征等各种有价值的信息.目前,广泛使用的大 数据分析方法与工具主要是机器学习和统计方法,尤其是计算统计学工具.在本节,我们将论证 大数据和机器学习并没有改变统计建模与统计推断的一些基本思想,如抽样推断总体分布性质、 充分性原则与数据归约、因果推断、预测等.因此,现代统计学在大数据分析方面仍然将发挥基 础性的关键作用.但是,大数据的复杂性和机器学习的广泛应用的确给统计科学提出了一些重要 挑战,这些挑战有望为推动现代统计学的发展提供各种机遇,尤其是创新统计理论、方法与工具 等方面.
5.1非结构化数据与文本回归分析
从统计学角度看,相比传统数据,大数据特别是非结构化数据将带给我们更多的有价值的信 息,这些信息可用于发展新的统计方法与工具.比如,在互联网时代,社交媒体(如微博和脸书) 数据经常反映了社会公众或社会群体对每个时期重要事件的看法,而这些重要事件常常对社会经 济造成很大影响,因此受到越来越多的关注(参见Shiller (2019)).社交媒体数据通常以非结构化 或半结构化形式呈现,但通过爬虫等技术抓取信息,可用于构建新的解释变量或预测变量,如消 费者幸福感指数、投资者情绪指数、经济政策不确定性指数、经济政策变化指数、社会舆情指数 等(参见 Baker and Wurgler (2007), Baker, Bloom and Davis (2016), Chan and Zhong (2018)). 这些从文本数据构建的重要变量包含传统数据所没有的信息,可通过统计回归模型等方法,分析 与测度它们对社会经济金融市场的影响,这就是所谓的文本回归(textual regression)分析.
除了基于社交媒体非结构化数据构建经济心理指数之外,我们还可以通过大数据与人工智能 方法,构造高频宏观经济时间序列指数,如CPI和PPI的每日时间序列数据.这将有助于我们 及时预测宏观经济的变化趋势,包括实时预测(nowcasting);参见文献Giannone, Reichlin and Small (2008), Bok et al. (2017).目前,绝大部分宏观经济指标最高频数据是月度数据,像国内生 产总值(GDP)这样重要的宏观经济变量还没有月度数据.大数据的出现和人工智能技术的使用 可以显著提高宏观经济数据的测度频率.
5.2抽样推断原则
大数据并不意味着可以获取DGP的总体分布的完全信息.曾经有一种观点认为,大数据提 供了总体分布的完全信息或近乎完全的信息,因此在大数据时代,海量数据将使推断统计学变得 价值有限甚至毫无价值.这种情形只有在统计模型是唯一正确设定而且不变的假设条件下才可 能发生.众所周知,推论统计学的基本思想是从随机样本推断总体分布特征,而所推断出来的总 体分布特征,也适合于刻画从同一总体分布产生的其他随机样本.假设某一参数统计模型是正确 设定,则当样本容量非常大时,确实可以不必担心参数估计量的抽样可变性(sampling variability), 即参数估计不确定性将可以忽略不计.尽管当大数据的样本容量很大时,模型参数估计结果 的抽样可变性也因此变得没有以前那么重要,但是通过随机样本推断总体分布特征的统计思想仍 未改变,取而代之的很可能是模型选择不确定性.模型选择不确定性可能是因为大数据中存在大 量解释变量,而这些解释变量具有不同程度的多重共线性,或者是因为DGP具有异质性或时变 性,或者是因为模型误设.因此,当对数据进行“微扰,时,即增加或减少一小部分数据,基于预 定统计准则的最优统计模型将会显著改变.我们知道,机器学习的主要目的,是基于对训练数据 的“学习,,经验,预测未知样本的行为或表现.其假设前提是从训练数据中“学习”到的一些系统 特征与统计关系(如相关性、异象),会在未知数据中再次出现,不管未知数据是截面数据或时间 序列数据.换言之,机器学习就是从训练数据中挖掘出可以泛化到未知数据的系统特征,并根据 这些共同系统特征进行预测.如果我们将这些共同系统特征定义为DGP的总体特征,那么机器 学习这种样本外预测方法,无论是基于截面数据还是时间序列数据,均遵循类似从样本推断总体 特征的基本统计思想.之所以需要测试与验证的主要原因是基于训练样本的“学习”经验可能会 存在过度拟合现象,因而不能刻画样本外的系统特征.过度拟合可能是由样本选择偏差、异质性、 时变性、甚至模型误设所导致.例如,在预测当前新冠肺炎疫情未来发展趋势时,需要考虑可能的 新冠肺炎病毒变异性,即结构变化.因此,机器学习也可视为遵从抽样推断总体分布性质的统计 思想,至少是一种广义的抽样推断的统计方法,同时,由于拥有海量大数据,“总体”的概念可以 更一般化,即允许具有异质性或时变性的DGP,当然不同异质主体或不同时期的DGP仍然需要 假设具有一些共同的系统特征.
机器学习早在20世纪50年代就已经提出来,但是它的快速发展与广泛应用发生在从20世 纪90年代开始的大数据时代.海量大数据的收集、存储、处理与分析必须依赖人工智能方法,而 海量大数据的可获得性为机器学习探索与学习数据之间可能存在的复杂关系(如非线性关系)提 供了丰富的素材.作为大数据的一种重要分析方法,机器学习与统计学密切相关,两者拥有一些 共同点.机器学习是一种设计、推导复杂算法的数学方法,通过学习训练数据所包含的历史关系 与系统特征,利用计算机算法自动得出最佳预测.与统计学一样,机器学习也假设DGP是一个随 机过程,而且其结构或概率法则是未知的.算法的核心目标是泛化从训练数据中所“学习”到的 经验,即夕卜推预测,其本质是从训练样本推断未知样本的总体特征.所谓泛化(generalization)指 的是机器以学习训练数据的经验为基础,对一个未知的新样本进行精准预测.一般假设训练样本 来自一个未知的概率分布,机器学习需要从训练数据中学习未知概率分布的系统特征,以便对新 样本做出准确预测.对未知新样本能够做出准确预测的重要前提是训练数据和测试数据的DGP 或概率法则保持不变,这与统计推断通过抽样推断总体分布性质的基本思路是一致的.两者最主 要的区别在于机器学习的预测不用统计模型而直接基于计算机算法,而统计预测一般是基于某个 参数模型,其函数形式假设已知,但包含一个未知的低维参数向量.如果数据容量不大,参数模型 可能很有用,但如果数据非常多,模型可以拓展为一般化的数据算法,这样更有可能捕捉大数据 中变量之间的各种复杂关系.
均方误差特别是其平方偏差_方差分解就是测度泛化误差的一种常用统计准则.为了实现 最佳泛化,算法的复杂性必须匹配DGP的复杂性.一方面,若DGP比算法结构更复杂,则算法 拟合数据的能力较弱.另一方面,如果算法复杂性增高,则训练数据的拟合误差将减小.然而,若 算法过于复杂,则会导致过度拟合且泛化误差增大.概率理论可以为测度和约束泛化误差提供  个有效方法.这是机器学习和统计推断共同的概率论基础.事实上,贝叶斯统计学也是机器学习 的一个重要理论方法.
在实际应用中,机器学习可能会遇到各种样本偏差问题.比如,一个只基于现有客户训练数 据的机器学习算法并没有体现新客户的信息,因此可能无法预测新客户群的需求.这就是统计学 中著名的样本选择偏差问题,其原因是不同客户群可能存在潜在的异质差别.另一种可能性是时 变性即结构变化所导致的样本偏差.针对样本偏差问题,可以使用统计学的Holdout方法和k折 交叉验证法(k-fold cross-validation)等来验证机器学习算法.Holdout方法将数据分为训练集和 测试集,这是最常用的验证方法;而k折交叉验证法则是随机地将数据分为k组子集,其中k - 1 组用于训练算法,剩下一组用于测试训练算法的预测能力.
在统计分析中,由于传统数据一ft样本容量较小,通常采用样本内模型检验法,如模型拟合优 度或模型设定检验.然而,如果采用样本内统计准则,那么模型过度拟合的可能性将一直存在.比 如,当解释变量个数增加时,线性回归模型的R平方总会越来越大,即使这些解释变量与因变量 毫不相关.f 来说,增加模型复杂性可以提高拟合优度,甚至在很多情况下最终总会通过样本内 检验.关于统计模型通常最终能够通过基于样本内残差的模型检验的讨论,可参见文献Breiman (2001).更严重的是,样本内统计建模与统计推断,如果多次重复使用同一个样本数据,有可能会 导致所谓的数据窥视偏差(data snooping bias),其原因是同一个样本数据的多次重复使用可能 导致统计显著性水平控制不当(参见Lo and MacKinlay (1990), White (2000)).由于大数据样本 容量通常较大,因此可以使用样本外模型检验方法或交叉验证方法,作为一个一般化的模型评估 准则(如Varian (2014)).样本外模型评估很重要,因为误设模型一般不能很好地预测未来样本 或其他未知样本.即使一个统计模型对训练数据而言设定正确,但如果存在结构变化,该模型对 未来样本的预测可能不准,或者如果训练数据和测试数据之间存在显著异质性,该模型对其他样 本的预测效果也可能不好.样本外模型评估还可以有效降低数据窥视偏差.总之,样本外模型验 证比样本内模型检验更严格更科学,同时更适用于样本容量大的数据.
由于科技进步、偏好改变、政策变化和制度改革,DGP可能会随着时间而改变.Lucas (1976) 指出,理性的经济主体将正确预测政策变化的影响,并相应调整他们的经济行为.当DGP随时 间而改变时,只有最近的数据信息与DGP的现状密切相关;遥远的旧数据则与DGP的现状越 来越不相关,对推断DGP的当下行为用处不大.同样地,由于经济主体之间存在异质性,训练数 据的经济主体可能无法代表测试数据的经济主体.因此,现有样本不能提供关于未来DGP或现 有样本未涵盖的经济主体的信息.实际上,如果DGP随时间而改变,任何样本在给定时间内,无 论信息多么丰富,都无法包含未来总体的所有信息.所以,任何时间序列数据在给定时间内只能 提供一个动态时变随机过程的信息子集,而不是全样本信息.因此,在推断DGP的总体分布特 征时,统计抽样理论依旧有用,而且适用于更一般的存在时变性或异质性的情况.
5.3统计显著性与经济显著性
由于大数据的样本容量大,我们可以探索大数据中可能存在的非线性、时变性、异质性等复 杂结构,这是机器学习能够比参数统计模型预测更精准的一个主要原因.另一方面,样本容量大 也可能给统计建模与统计推断的习惯做法带来挑战.比如,对于样本容量不是很大的传统数据, 如果一个解释变量的参数估计量的F值根据预设显著性水平(一般为5%)具有统计显著性,那 么通常认为该解释变量是重要变量.现在假设有一个样本容量为100万的大数据,模型的大部分 解释变量可能都达到5%的显著性水平,都具有统计显著性.众所周知,无论真实参数值多小(只 要不等于零),随着样本容量不断增大,统计显著性检验最终将会变为显著.那么,对于100万的 样本容量,恰好达到5%显著性水平的参数估计量意味着什么呢?显然,对于如此大的样本容量, 该参数值可能会非常接近(但不等于)零,因此相应的解释变量可能在经济学上并不重要.换句 话说,当样本容量非常大时,具有统计显著性并不意味着具有现实重要性或经济重要性.因此,大 数据的大样本容量使得传统的统计显著性检验变得不再适合(Abadie et al. (2014, 2017)).同 时,这也产生了一个新的问题:当样本容量达到100万这么大时,如何衡量解释变量的经济重要 性呢?我们需要合适的方法来判定解释变量的经济重要性,而不是仅仅评估其统计显著性.机器 学习领域已提出各种判断特征重要性(feature importance)的方法,其中所谓特征其实就是解释 变量.这些方法很多都不依赖于具体参数模型(即model-free).参见Liu, Zhong and Li (2015).
为了说明与模型无关的变量选择方法的重要性,我们举一个简单例子.假设因变量与某个解 释变量真实的函数关系是非线性关系,但是我们设定一个线性回归模型,即模型误设.很有可能 这个解释变量的t-检验统计量在样本容量很大时也不具有统计显著性,则依据线性回归模型的 检验结果应该将该解释变量扔掉.显然,这将会导致所谓的遗漏变量问题.
上述分析表明,当样本容量很大时,只关注f 参数统计模型中的解释变量的统计显著性,其 实际意义并不太大.更有意义的是关注模型选择,特别是当存在高维潜在解释变量时,可以通过 比较不同的模型以显著提高拟合优度或预测精度,这里所谓不同的模型既可以是指拥有不同的解 释变量集合(参见Breiman (2001)),也可以是指不同的函数形式,或者两者的混合.换句话说,对 于大数据特别是胖大数据而言,模型选择可能比解释变量的统计显著性更有助于改进对数据的拟 合或预测效果.与此同时,高维解释变量的集合可能存在多重共线性或近似多重共线性,根据某 一统计准则(如均方误差),不同的解释变量集合可能会导致相同或相似的预测或拟合.如果对数 据进行“微扰”,即增加或减少一小部分数据点,便会导致最佳模型的显著改变.这里,抽样可变 性导致最优模型的显著改变这称为模型不确定性(model uncertainty).因此,在大数据时代我 们可以预计,统计分析将从参数估计不确定性过渡到模型选择不确定性或模型不确定本身.
5.4模型多样性与模型不确定性
对于一个庞大数据,高维解释变量的集合有很大的可能性存在多重共线性.因此,基于某一 统计准则(如均方误差),不同的统计模型有可能呈现相似甚至相同的统计表现,这称为模型多样 性(model multiplicity),即不同模型的统计表现近似甚至相同(参见Breiman (2001)).模型多样 性可能与统计学关于DGP的模型唯一性假设并不矛盾.一种情形是,存在DGP的唯一模型设 定,但受限于数据证据和统计工具,无法挑选出正确的模型,所有统计模型都是对DGP的近似, 误设模型从不同方面刻画了 DGP的特征,但根据某个统计准则,这些误设模型的表现近似甚至 相同.在经济学,也可能同时存在多个经济模型能够解释同一经济现象,有些模型甚至还会互相 矛盾,这称为模型模糊性(model ambiguity). Hansen and Sargent (2001), Hansen et al. (2006) 研究了模型不确定性对经济主体的决策行为的影响.当然,也存在另外一种可能性,即生成数据 的DGP并不能用唯一模型设定来刻画.举一个统计学的著名例子一一污染数据,这些数据是 由两个或两个以上不同的概率分布所生成的随机数的集合,需要用一个混合概率分布来刻画.在 经济学中,经济主体在不同状态下可能有不同的经济行为.在这种情况下,需要用一系列模型的 “组合,,来描述整个经济的运行,其中每一个模型描述某个状态下的经济行为,而这些模型的“组 合”可由某种概率法则(如马尔可夫链转移概率)决定.统计学和计量经济学一个著名的“组合” 模型就是马尔可夫链转移模型(参见Hamilton (1989)).
基于同一统计准则,对数据的“微扰”可能会导致最优统计模型的显著改变,这种模型不确 定性在实际应用中并不罕见,与模型多样性密切相关.另一方面,DGP也可能会出现结构变化. 时间序列数据的每个时间段存在一个最佳预测模型,但因为结构变化,最佳预测模型会随着时间 而改变,这称为模型不稳定性(model instability).
模型不确定性与模型不稳定性使得稳健统计分析变得格外重要.在模型不确定性和模型不 稳定性条件下进行统计建模与统计推断是大数据统计分析的一个新方向,已经取得一些进展.  般而言,如果数据杂糅或者不同状态下存在不同经济行为,那么模型平均(model averaging)或模 型组合可能是最佳预测方法.在预测领域(如Hansen (2007)),已提出了用各种模型平均法或预 测组合法来提高预测的稳健性和准确性,这种想法至少可追溯到Bates and Granger (1969)的预 测组合方法.在机器学习领域,为了克服模型不确定性带来的影响,Breiman (2004)提出了随机 森林方法,通过计算机重复抽取产生一系列相关性不太强的随机样本,对每个样本训练一棵决策 树,然后对所有决策树预测取平均以获取稳健预测.
5.5充分性原则、数据归约与维数约简
样本容量大并不是胖大数据的最重要特征.对时间序列数据而言,大数据的时间维度信息总 是受到时间长短的限制(当然,实时或近乎实时的记录可以提供高频观测值).然而,如果大数据 包含高维潜在解释变量的信息,关于DGP的横截面信息就非常丰富.当解释变量的数目多于样 本容量时,从统计学维数灾难的角度看,胖大数据事实上是一个“小样本”.因此,需要发展新的 统计降维方法以选择重要解释变量,这其实是一种数据归约(data reduction)方法.数据归约本 质上是统计学充分性原则的一种方法,为高维参数统计模型的有效推断提供了强大的分析工具. 统计分析就是寻找最有效的手段(模型、方法、工具等)从数据中总结、提取有价值的信息,而 充分性原则是从样本数据中总结信息的一个统计学基本原则.充分统计量在统计推断中能够完 全总结样本数据中所有的关于未知模型参数信息的低维统计量.鉴于大数据的样本容量大、潜在 解释变量的维度高以及信息密度低等特点,统计充分性原则在大数据分析中将发挥十分重要的 作用.我们需要创新分析大数据的数据归约方法,其中最重要的一种方法是变量降维(dimension reduction),特别是在胖大数据条件下的变量选择.这种降维方法可视为机器学习方法在高维统 计建模分析中的应用,属于“统计学习”(statistical learning)的交叉领域.
在“统计学习”这一新兴的交叉领域,Tibshirani (1996)提出LASSO方法,可以在一个高维 线性回归模型框架中挑选出重要解释变量并排除众多不相关的协变量.简单地说,LASSO方法 的目标函数是最小化高维线性回归模型的残差平方和,加上一个对高维回归模型维度的惩罚项. 这个惩罚项是所有回归系数的绝对和.给定稀疏性(sparsity)假设,即假设所有潜在解释变量中 只有少数未知变量的系数不为零时,LASSO方法及其拓展(如Fan and Li (2001), Zou (2006)) 能够在样本容量趋于无穷大时正确识别那些系数不为零的解释变量.因此,LASSO方法可视为 在一个高维线性回归模型框架下统计推断和机器学习相结合的一种重要的变量选择方法.从统 计学的充分性原则看,这本质上是一种数据归约.LASSO方法在统计学与计量经济学领域拥有 广泛的应用前景.例如,在2SLS和GMM估计中,选择有效的工具变量一直是一个难点(参见 Belloni et al. (2012)).因此,可以使用类似LASSO的方法从大量潜在工具变量中挑选出重要工 具变量,以改进2SLS和GMM估计效率.又如,高维方差-协方差的降维估计,也可以通过拓展 LASSO方法得以实现(参见Cuiet al. (2020)).事实上,变量选择问题还可以拓展到高维非线性 回归模型和高维非参数回归模型.
5.6机器学习与非参数建模
如前文所言,机器学习不用参数统计模型,而是直接基于数据构建算法.这些算法从训练数 据中学习系统模式,并基于这些系统模式进行预测.许多情况下,机器学习算法可以得到精准的 样本外预测.然而,这些算法就像黑箱一样,很难甚至无法解释为什么能够得到比较精准的样本 外预测.使用基于测试数据的泛化准则,可以解释其中一部分原因,但不能解释全部.事实上,机 器学习算法类似于统计学的非参数分析方法.不少重要的机器学习方法,如决策树和随机森林, 最早是由统计学家首先提出来的.与参数统计建模方法不同,非参数方法不对DGP的结构或总 体分布假设任何具体的函数形式,而是让数据告诉合适的函数形式.非参数方法关注对数据的拟 合优度,如最小化残差平方和,同时也顾及拟合函数的平滑性(如二阶连续可导),最终通过选择 一个平滑参数(smoothing parameter)使均方误差中的方差和平方偏差达到均衡,这样便可一致 估计关于DGP的未知函数,如回归函数或概率分布函数.许多机器学习方法具有很强的非参数 方法的特征,加上使用基于测试数据的泛化准则,非参数分析可以从理论上解释为什么很多机器 学习方法在大数据条件下能够取得较好的预测效果.例如,Lai (1977)通过推导品最近邻法(k- NN)均方误差中的方差和平方偏差的收敛速度,证明当整数k随着样本容量n的增加而增加,但 增加速度比n慢时,k最近邻法可以一致估计未知回归函数.Breiman (2004)证明,假设DGP 存在唯_的未知概率分布,而数据由独立分布的随机样本遵循未知概率分布生成,那么如果决策 树的节点数量随着样本容量的增加而增加,但其增加的速度比样本容量慢,则决策树可以一致估 计 DGP 的未知概率函数.Biau, Devroye and Lugosi (2008), Scornet, Biau and Vert (2015)证明 了随机森林可以一致估计未知回归函数.White (1989, 1992)则严格证明了人工神经网络估计的 一致性,前提是假设隐藏层的数量随着样本容量的增加而增加.人工神经网络是模仿人类认知过 程的一个非参数模型,如果其复杂性随样本容量的增加而增加,最终可以一致估计出未知回归函 数.实际上,就变量选择而言,许多机器学习算法比典型的非参数方法更灵活.对于非参数分析, 由于臭名昭著的“维数灾难”问题,需要事先给定解释变量,而且这些解释变量的维度不能太大, 否则在实际中无法应用.相比之下,机器学习经常面对大数据中高维的潜在解释变量,其维度很 大甚至超过数据的样本容量,机器学习可以通过合适算法快速“穷尽“所有合适的解释变量子集, 为最佳预测挑选出一个低维的重要解释变量集合.这是机器学习比非参数方法更有优势的一点.
统计建模与机器学习的交叉融合是大数据分析的一个重要发展趋势.一方面,没有机器学习, 无法想象如何分析海量大数据.另一方面,大数据是我们能够“教”机器而不用直接为它们编程 的主要原因之_.大数据的可获得性使得训练机器“学习”模式成为可能.相对于参数统计模 型,机器学习算法的难点之一是缺乏可解释性,这是因为机器学习方法直接基于数据构建算法而 非用参数建模.相反地,统计推断大多采用参数建模.严格地说,一个统计参数模型只能刻画数 据与DGP的一些总体特征,但通常并非全部总体特征(除非模型正确设定).因此,统计参数模 型所刻画的证据其实是模型证据(model evidence),与直接基于数据的机器学习所刻画的证据存 在一定差别.由于其灵活性与一般性,机器学习所刻画的证据将比较接近数据原有的证据,即数 据证据(data evidence).模型证据与数据证据之间的差别,对我们在解释统计推断特别是参数假 设检验的实证结果时,非常重要.例如,使用一个P阶线性自回归模型验证金融市场有效性假说 时,如果我们基于观测数据发现所有自回归系数均为零,这并不意味着市场有效性原假说是正确 的,因为线性自回归模型只是众多预测金融市场方法中的一种,很有可能收益率数据存在可预测 的成分,但是需要使用非线性模型.由于机器学习与非参数方法一样,并不依赖某一个特定的统 计模型,因此机器学习发现的证据将比较接近数据证据,从而避免参数统计模型的缺点.
5.7相关性与因果关系
曾经有一种观点,认为大数据分析只需要相关性,不需要因果关系.之所以产生这个论断,一 个主要原因是在大数据条件下,有很多实时或高频数据,而基于实时或高频数据的预测主要是依 靠相关性,而不是因果关系.然而,很多情况下,经济因果关系在高频或实时条件下可能还无法充 分显示出来,所以不需要因果关系的论断是不对的,至少不适用于经济学.在许多实际应用中,机 器学习方法,如决策树、随机森林、人工神经网络、深度学习等,基于数据的系统特征与统计关 系(如相关性)确实可以进行精准的样本外预测.然而,经济研究的主要目的是推断经济系统中 经济变量之间的因果关系,揭示经济运行规律.比如,在信用风险管理中,大数据分析可以帮助查 明信用风险的根本原因,尽早发现可能的欺诈行为以防止金融机构遭受损失,这些都需要分析大 数据背后的因果关系.在大数据时代,经济因果关系依旧是经济学家与计量经济学家在经济学实 证研究中的主要目的.信息技术,尤其是互联网、移动互联网与人工智能,从根本上改变了人类的 生产方式与生活方式,但它们没有改变经济学因果推断的目的.在过去20年,计量经济学诞生了 一门新兴学科,即政策评估计量经济学(econometrics of program evaluation),研究非实验条件 下经济因果效应的识别与测量.所谓因果关系是指在所有其他变量(如控制变量Z)不变的条件 下,改变一个变量(如政策干预X)是否会导致另一个变量(如经济结果Y)的改变.如果有,则 称存在从X到Y的因果关系.在实验科学中,要识别因果关系或检验一个政策干预的效应,可 以将实验主体随机分为两组,一组是实验组,接受实验干预,另一组是控制组,不接受实验干预, 其他条件或变量则保持不变.干预效应是两组在同等条件下的结果之差.在计量经济学中,当评 估政策效应时,由于经济系统的非实验性特点,往往无法进行控制实验,尤其是无法确保实验组与控制组满足“同等条件”假设.统计学和计量经济学关于政策评估的基本思想是,在同等条件下,比较实施了该政策的观测结果与假设没有实施该政策的虚拟事实.在已实施某个政策的现实 情况下假设这个政策没有实施,显然是一种虚拟假设,该虚拟假设下的经济结果常称为虚拟事实 (counterfactuals).由于虚拟情况不会真正发生,故需要对虚拟事实进行估计,这实质上是一种预 测.这可以借助一个统计模型来估计,也可以通过机器学习来预测.鉴于机器学习精准的预测能 力,机器学习有望精准估计虚拟事实,从而精确识别与测度经济因果关系.换句话说,虽然机器学 习不能直接揭示因果关系,但它可以通过准确估计虚拟事实帮助精确识别与测度因果关系.关于 因果推断,可参见 Pearl (2009), Varian (2016).
5.8新型数据建模
除了非结构化数据(如文本、图像、音频、视频数据等),大数据包括很多新型的结构化数据. 例如,函数数据就是一种新型数据,而大家比较熟悉的面板数据(参见Hsiao (2014))是函数数据 的一个特例.函数数据的例子还有很多,如一天内温度是时间的函数;每个交易日从开盘到收盘, 股票价格是时间的函数;从1岁到15岁,女孩每月测量的身高是时间的函数.另一种新型数据是 区间数据(interval-valued data),即某个变量取值的范围.相对点数据(point-valued data)来说, 区间数据包含更多关于变量的水平和变化范围的信息.区间数据在现实生活中并不少见,如病人 每天的最高血压与最低血压、每天天气的最高温与最低温、每天股票的最高价与最低价、金融资 产的买卖差价等,均构成区间数据.也可以通过结合多个原始数据得到区间数据,如某行业男性 员工与女性员工的平均工资、农村家庭与城镇家庭的平均收入.区间数据是符号数据(symbolic data)的一个特例,符号数据是更一般化的数据形式.
新型数据比传统点数据包含更多信息.很多情况下,人们一般是将这些新型数据转换为点数 据,然后使用传统的计量经济学模型与方法进行分析.但是,将新型数据转换为点数据,通常伴 随着信息损失.因此,直接对这些新型数据进行建模比先将它们转化为传统点数据再建模更有价
值.新型数据需要新的统计模型与统计方法.在这方面,统计学和计量经济学已产生了一些原创 性成果,如函数数据分析(functional data analysis)和区间数据建模.关于函数数据分析,可参见 文献 Horvath and Kokoszka (2012),而关于区间数据建模,可参见 Han et al. (2018), Sun et al. (2018).
6总结
本文讨论了大数据与机器学习给统计科学的理论与应用带来的影响、挑战和机遇.首先,尽 管大数据正在改变基于统计显著性的统计建模和统计推断的传统做法,但大数据并没有改变从 随机抽样推断总体分布特征的统计思想.重要的统计学原则,如抽样推断、充分性原则、数据归 约、变量选择、因果推断、样本外预测等基本统计思想,在大数据分析上依旧适用,一些统计学方 法如充分性原则甚至因为大数据的出现而变得更加重要,但其具体的方法与表现形式需要有所创 新.其次,大数据允许放松统计建模的一些基本假设,如模型唯一性、正确设定与平稳性,从而扩 大了统计建模与统计推断的应用范围.再次,大数据,尤其是非结构化数据,带来了很多传统数据 不具备的有价值的信息,大大拓展了实证研究的范围与边界.最后,新型数据也催生了新的统计 模型与方法.
机器学习是伴随大数据和云计算的产生而广泛兴起的大数据分析方法.它是计算机自动算 法,通过学习训练数据的系统特征与统计关系而对未知样本进行预测,这与统计学由抽样推断总 体的思路一致.机器学习与数理统计学拥有相同的随机概率基础,但它不假设DGP的结构或概 率分布满足具体的函数或模型形式,而是通过计算机算法从训练数据中学习数据的系统特征与变 量之间的统计关系,实现样本外预测与分类.机器学习算法通常以精准的样本外预测著称,但它 们经常就像黑箱一样,很难甚至无法解释.然而,很多重要的机器学习方法,如决策树、随机森 林、品最近邻法、人工神经网络以及深度学习,与非参数分析的基本思想一致或非常类似.因此, 可以从非参数方法的视角、从统计理论上说明为什么机器学习方法在大数据和使用泛化准则条 件下可以获得精准的样本外预测.机器学习与统计建模相结合催生了一个新的交叉领域,即统计 学习.比如,统计学习中的LASSO方法及其拓展就是一种强大的变量选择方法,它可以在一个 高维线性回归模型框架内,正确挑选出重要的解释变量,并排除大多数不相关的变量.统计学和 计量经济学中存在很多高维建模与数据归约难题,这些难题有望通过借鉴、应用与创新机器学习 的方法加以解决.

参 考 文 献

洪永淼,(2007).计量经济学的地位、作用和局限[J].经济研究,(5): 139-153.

Hong Y M, (2007). The Status, Roles and Limitations of Econometrics[J]. Economic Research Journal, (5): 139-153.

Abadie A, Athey S, Imbens G W, Wooldridge J M, (2014). Finite Population Causal Standard Errors[R]. Working Paper, National Bureau of Economic Research.

Abadie A, Athey S, Imbens G W, Wooldridge J M, (2017). When Should You Adjust Standard Errors for Clustering[R]. Working Paper, National Bureau of Economic Research.

Baker M, Wurgler J, (2007). Investor Sentiment in the Stock Market[J]. Journal of Economic Perspectives, 21(2): 129-152.

Baker S R, Bloom N, Davis S J, (2016). Measuring Economic Policy Uncertainty[J]. Quarterly Journal of Economics, 131(4): 1593-1636.

Bates J M, Granger C W, (1969). The Combination of Forecasts[J]. Journal of Operational Research Society, 20(4): 451-468.

Belloni A, Chen D, Chernozhukov V, Hansen C, (2012). Sparse Models and Methods for Optimal Instruments with an Application to Eminent Domain[J]. Econometrica, 80(6): 2369-2429

Biau G, Devroye L, Lugosi G, (2008). Consistency of Random Forests and Other Averaging Classi- fiers[J]. Journal of Machine Learning Research, 9: 2015-2033.

Bok B, Caratelli D, Giannone D, Sbordone A M, Tambalotti A, (2017). Macroeconomic Nowcasting and Forecasting with Big Data[R]. Staff Repots 830, Federal Reserve Bank of New York.

Breiman L, (2001). Statistical Modeling: The Two Cultures[J]. Statistical Science, 16(3): 199-231.

Breiman L, (2004). Consistency for a Simple Model of Random Forests[R]. Technical Report 670, Statistical Department, University of California at Berkeley.

Chan J T, Zhong W, (2018). Reading China: Predicting Policy Change with Machine Learning[R]. AEI Working Paper 998561, American Enterprise Institute.

Cox D R, (1972). Regression Models and Life-tables[J]. Journal of Royal Statistical Society: Series B (Methodological), 34(2): 187-202.

Cui L, Hong Y, Li Y, Wang J, (2020). Large Positive Definite Covariance Estimation for High Frequency Data via Sparse and Low-rank Matrix Decomposition[R]. Working Paper, City University of Hong Kong.

Engle R F, (2000). The Econometrics of Ultra-High-Frequency Data[J]. Econometrica, 68(1): 1-22.

Engle R F, Russell J R, (1998). Autoregressive Conditional Duration: A New Model for Irregularly Spaced Transaction Data[J]. Econometrica, 66(5): 1127-1162.

Fan J, Li R, (2001). Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties[J]. Journal of American Statistical Association, 96(456): 1348-1360.

Giannone D, Reichlin L, Small D, (2008). Nowcasting: The Real-time Informational Content of Macroeconomic Data[J]. Journal of Monetary Economics, 55(4): 665-676.

Granger C W J, (1969). Investigating Causal Relations by Econometric Models and Cross-spectral Methods[J]. Econometrica, 37(3): 424-438.

Hamilton J D, (1989). A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle[J]. Econometrica, 57: 357-384.

Han A, Hong Y, Wang S, (2018). Autoregressive Conditional Interval Models for Time Series Data[R]. Working Paper, Department of Economics, Cornell University.

Hansen B E, (2007). Least Squares Model Averaging[J]. Econometrica, 75(4): 1175-1189.

Hansen L P, Sargent T J, (2001). Robust Control and Model Uncertainty[J]. American Economic Review, 91(2): 60-66.

Hansen L P, Sargent T J, Turmuhambetova G, Williams N, (2006). Robust Control and Model Mis- specification[J]. Journal of Economic Theory, 128(1): 45-90.

Horvath L, Kokoszka P, (2012). Inference for Functional Data with Applications[M]. Berlin: Springer Science & Business Media.

Hsiao C, (2014). Analysis of Panel Data[M]. Cambridge: Cambridge University Press.

Lai S L, (1977). Large Sample Properties of k-Nearest Neighbor Procedures[D]. Los Angeles: University of California.

Liu J, Zhong W, Li R, (2015). A Selective Overview of Feature Screening for Ultrahigh-dimensional Data[J]. Science China Mathematics, 58(10): 1-22.

Lo A W, MacKinlay A C, (1990). Data-snooping Biases in Tests of Financial Asset Pricing Models[J]. Review of Financial Studies, 3(3): 431-467.

Lucas R E, (1976). Econometric Policy Evaluation: A Critique[J]. Carnegie-Rochester Conference Series on Public Policy, 1(1): 19-46.

Pearl J, (2009). Causality: Models, Reasoning and Inference[M]. Cambridge: Cambridge University Press.

Samuel A L, (1959). Some Studies in Machine Learning Using the Game of Checkers[J]. IBM Journal of Research and Development, 3(3): 210-229.

Scornet E, Biau G, Vert J P, (2015). Consistency of Random Forests[J]. Annals of Statistics, 43(4): 1716-1741.

Shiller R J, (2019). Narrative Economics: How Stories Go Viral and Drive Major Economic Events[M]. Princeton: Princeton University Press.

Sun Y, Han A, Hong Y, Wang S, (2018). Threshold Autoregressive Models for Interval-valued Time Series Data[J]. Journal of Econometrics, 206(2): 414-446.

Tibshirani R, (1996). Regression Shrinkage and Selection via the Lasso[J]. Journal of Royal Statistical Society: Series B (Methodological), 58(1): 267-288.

Varian H R, (2014). Big Data: New Tricks for Econometrics[J]. Journal of Economic Perspectives, 28(2): 3-28.

Varian H R, (2016). Causal Inference in Economics and Marketing[J]. Proceedings of National Academy of Sciences, 113(27): 7310-7315.

White H, (1989). Some Asymptotic Results for Learning in Single Hidden-layer Feedforward Network Models[J]. Journal of American Statistical Association, 84(408): 1003-1013.

White H, (1992). Artificial Neural Networks: Approximation and Learning Theory[M]. Oxford: Blackwell Publishers.

White H, (2000). A Reality Check for Data Snooping[J]. Econometrica, 68(5): 1097-1126.

Zou H, (2006). The Adaptive Lasso and Its Oracle Properties[J]. Journal of American Statistical Association, 101(476): 1418-1429.

长按以上二维码即可下载原文PDF

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存