查看原文
其他

Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于机器学习在计量分析中的应用,各位学者可以参阅如下文章:1.Python中的计量回归模块及所有模块概览2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独3.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)4.机器学习第一书, 数据挖掘, 推理和预测5.从线性回归到机器学习, 一张图帮你文献综述6.11种与机器学习相关的多元变量分析方法汇总7.机器学习和大数据计量经济学, 你必须阅读一下这篇8.机器学习与Econometrics的书籍推荐, 值得拥有的经典9.机器学习在微观计量的应用最新趋势: 大数据和因果推断10.机器学习在微观计量的应用最新趋势: 回归模型11.机器学习对计量经济学的影响, AEA年会独家报道12.机器学习,可异于数理统计13.Python, Stata, R软件史上最全快捷键合辑!,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解15.Python做因果推断的方法示例, 解读与code16.文本分析的步骤, 工具, 途径和可视化如何做?17.文本大数据分析在经济学和金融学中的应用, 最全文献综述18.文本函数和正则表达式, 文本分析事无巨细19.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!20.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!

前面,我们引荐了机器学习方法出现在AER, JPE, QJE等顶刊上了!”,前沿: 机器学习在金融和能源经济领域的应用分类总结,③Lasso, 岭回归, 弹性网估计在软件中的实现流程和示例解读”,④回归方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR),⑤高维回归方法: Ridge, Lasso, Elastic Net用了吗,⑥Lasso回归操作指南, 数据, 程序和解读都有,⑦七种常用回归技术,如何正确选择回归模型?,⑧共线性、过度/不能识别问题的Solutions,⑨计量经济学与实验经济学的若干新近发展及展望,⑩计量经济学新进展,供参考等,在学术同行间引起巨大反响。

机器学习方法逐渐在经济管理等社科类顶刊,如AER,JPE,QJE,JOF等期刊上出现了。为了进一步了解机器学习在国外最新应用动向,我们为各位学者奉上“机器学习: 一种应用的计量经济学方法”。对机器学习方法感兴趣的学者,建议认真研读这篇非常重要、全面的文章。
正文
关于下方文字内容,作者:韦梓峄,东北财经大学金融学院通信邮箱:wzy_dufe@163.com

机器学习: 一种应用的计量经济学方法

Mullainathan, Sendhil, and Jann Spiess. 2017. "Machine Learning: An Applied Econometric Approach."Journal of Economic Perspectives, 31 (2): 87-106.

摘要

Machines are increasingly doing "intelligent" things. Face recognition algorithms use a large dataset of photos labeled as having a face or not to estimate a function that predicts the presence y of a face from pixels x. This similarity to econometrics raises questions: How do these new empirical tools fit with what we know? As empirical economists, how can we use them? We present a way of thinking about machine learning that gives it its own place in the econometric toolbox. Machine learning not only provides new tools, it solves a different problem. Specifically, machine learning revolves around the problem of prediction, while many economic applications revolve around parameter estimation. So applying machine learning to economics requires finding relevant tasks. Machine learning algorithms are now technically easy to use: you can download convenient packages in R or Python. This also raises the risk that the algorithms are applied naively or their output is misinterpreted. We hope to make them conceptually easier to use by providing a crisper understanding of how these algorithms work, where they excel, and where they can stumble—and thus where they can be most usefully applied.
本文献作者将机器学习在计量经济学中的有效运用视角出发,提出机器学习不仅是计量经济学工具箱中的新工具,其中监督学习还解决预测问题:如何从x预测y。机器学习的优点在于它能够从数据中发现一般化的规律,能够发现未预先规定的复杂结构。它可以避免通过简单的过度拟合,从数据中拟合出复杂且灵活的模型,并使模型在样本外运行良好。同时文章还对机器学习的工作原理和与计量经济学的结合应用进行细致总结,两者的整合有利于我们扩大研究范围和深度。
机器学习的工作原理
首先作者通过预测房屋价值的例子对机器学习与计量中熟悉的OLS方法进行比较。选取来自2011年美国住房调查的大都市样本中随机选择的10,000套住房作为训练样本并选取有关房屋及其位置的信息(例如房间数量,基本面积等)作为变量,共选取150个变量。对于不同的预测方法,作者通过评估每种方法对于同一样本中分离的41,808个保留样本的房屋价值预测效果进行分析,结果如下表所示:
注:有关样本实证研究的所有详细信息,可以查阅:http://e-jep.org.
在上表中得到两个发现:
    1. 强调了选取保留样本进行评估的必要性,对于某些机器学习算法(例如随机森林),这种算法尤其容易出现过度拟合的情况。
    2. 在对保留样本的评估中,即使在样本量适中且协变量数量有限的情况下,诸如随机森林之类的机器学习算法也可以比普通最小二乘法做得更好。
一. 从线性最小二乘到回归树
在上述问题中,对于普通最小二乘回归,当考虑到变量之间的相互作用时(如壁炉的增加值可能会随客厅数量而有所不同),需要我们手动计算决定哪些交互包括在回归中(因为如果包括所有成对项比数据点更多的回归变量)。而当问题从房屋价值转变为更加复杂的人脸识别问题时,有效组合像素的函数将是高度的非线性和交互性,采用普通最小二乘回归的可行性也大打折扣。
进一步作者以回归树为例叙述机器学习对于交互的自动搜索。如下图所示,回归树将房屋特征的每个向量映射到预测的值。预测功能采用树的形式,该树在每个节点处一分为二。在树的每个节点上,单个变量(如洗手间的数量)的值确定要考虑左边的子节点(少于两个洗手间)或右边的子节点(两个或更多)。当到达最终端即叶子时返回预测值,每片叶子对应于虚拟变量的乘积(如最左侧的,系数值为9.2)。
二. 过度拟合及解决办法
考虑一下,如果有一棵足够深的树,那么每个观察结果都将留在自己的叶子中。那么对于给出的样本集,来说这将是完美的拟合。但同时这也是完美的过度拟合。
从上图中我们可以看出对于最左边的图,估计值与真实值之间存在一定的距离,拟合效果并不尽如人意。而对于最右边的图来说,虽然每一个样本点都在曲线上,但是由于函数形式过于复杂,对于样本点之外的点来说,并不能对其有较好的估计,出现过度拟合的情况。
机器学习的最大吸引力在于高维度:灵活的函数形式使我们能够适应数据的各种结构。但是这种灵活性也提供了很多可能性,以至于简单地选择最适合样本中的功能将是一个糟糕的选择。那么机器学习如何进行样本外预测呢?
解决方案的第一部分是正则化。以回归树为例,我们可以选择一定深度的树中的最佳树,而不是选择所有树中“最佳”的树。树越浅,样本内拟合越差:每片叶子上有很多观测值,没有一个观测值能很好地拟合,但这也意味着将其过度拟合程度低。树的深度是正则化器的一个示例,它可以测量功能的复杂性,通过适当选择正则化级别,可以避免过度拟合的发生。
那么如何选择正则化的级别?那就涉及到第二个部分经验调整。过度拟合的本质是我们希望预测函数在样本外与样本内一样表现出色。通过经验调整,在原始样本内创建了样本外实验。通过对一部分数据进行拟合,并查看哪个级别的正则化可以使得另一部分数据获得最佳性能。另外,可以通过交叉检验来提高此过程的效率:将样本分割成K个大小相等的子样本。一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,最后,我们选择具有最佳估计平均性能的参数。
进一步作者对于不同的预测算法的模型类型F及其正则化器R(f)进行总结。
选择预测函数涉及两个步骤:
  1. 以复杂度为条件,选择最佳的样本内最小损失函数。

  2. 使用经验调整来估计复杂度的最佳级别。

三. 计量经济学的指导作用
因此在使用机器学习方法时如何选用合适的函数以及如何对其进行正则化需要进行考虑选择。最近很多计量经济学理论结果补充了机器学习的理论,揭示了不同正则化工具的比较性能。
比如对于房间的面积是只考虑总面积还是考虑每个房间的面积,对于变量应该使用对数处理,还是归一化等等。这些关于如何呈现要素的选择将使模型类型和正则化器相互影响:线性模型可以轻松地从面积和房间数得到每个房间的面积,而回归树则需要许多次拆分节点。在传统的预测模型中,一组变量单单改变形式并不会更改预测,因为从中选择的模型类型没有更改。但是,在任何给定的正则化级别下,模型类型都可能发生变化从而导致预测值发生变化。比如如果我们认为在定价过程中每间卧室的浴室数量很重要,那么创建该变量将显着降低复杂性成本。
同时,对于预测性能进行可靠的评估是不置可否的,而这也需要计量经济学的强大保证。在房价示例中,将样本分为训练样本和保留样本符合计量经济学原理:拟合预测函数所涉及的所有数据(包括用于验证算法的交叉验证)均不用于评估所产生的预测函数。
因此计量经济学理论在这里起着双重作用。首先,计量经济学可以指导设计选择,例如交叉检验的折数选择及模型类型。这些选择的指导可以帮助提高预测质量和基于此的任何测试功能。其次,对于给定拟合的预测函数,它一定能够让我们推断估计的拟合程度。而保留样本使我们能够针对拟合函数的预测值进行测试。
四.机器学习的缺陷
机器学习的优点在于它们可以拟合出许多不同的模型。但是这也会导致一个致命弱点:更多的模型意味着具有完全不同参数的两个模型可以产生相似的预测结果。从而算法如何在两个截然不同的功能之间进行选择就归结为一个掷硬币的问题。因此,我们如何在两种不同的模型之间进行选择值得研究。
而正则化也加剧了这个问题。首先,我们会选择相对不复杂但错误的模型;其次,它可以引起遗漏变量偏差,当正则化排除一些变量时,可能会导致参数估计偏差。
机器学习如何应用
通过上文,我们可以得知机器学习的优点是它提供了一种强大,灵活高质量的预测方式而它的弱点是很难验证假设,因为机器学习不会产生基本参数的稳定估计。因此,机器学习在的改进预测上有较大应用价值。

1. 新数据

现如今“大数据”成为一大热词,一方面它强调数据规模的变化,另一方面这些数据的性质也发生了同样重要的变化。机器学习可以处理对于标准估计方法而言难以处理的高维非常规数据,包括传统上甚至没有将其视为可以使用数据的图像和语言信息。相关文献整理如下:
特征作者研究内容
通过机器学习运用卫星图像数据Donaldson and Storeygard (2016)概述了使用卫星图像数据的经济文献

Henderson, Storeygard and Weil (2012)利用卫星图像数据研究夜间的光度与经济产出之间的关系

Lobell (2013)使用卫星图像数据估计未来的收成规模

Blumenstock 2016).利用卫星图像数据通过机器学习追踪和确定发展中国家的贫困程度

Jean(2016)根据五个非洲国家的卫星数据运用神经网络预测当地的经济结果
运用大规模网络数据Blumenstock,Cadamuro and On(2015)使用手机数据量化卢旺达个人财富水平

Galeser,Kominers,Luca and Naik(2016)使用Google街景视图中的图像来衡量和波士顿的收入。
运用语言作为数据源Kang,Kuznetsova,Luca and Choi(2013)使用餐厅评论来预测卫生检查的结果

Antweiler and Frank(2004)将150万条评论进行看涨看跌或两者都不分类作为数据基础,表明在线消息有助于解释市场的波动性。
将详细的财务报表作为数据源Kogan,Levin,Routledge,Sagi and Smith(2009)根据10-K中的市场风险文字披露预测大约10,000家此类公司的波动性并表明它为过去的波动性添加了重要的预测信息

Hoberg and Phillips(2016)从其10-K业提取了公司的相似性,从而为这些公司生成了随着时代变化的新行业分类。
将机器学习在传统数据集中进行预处理和估算Feigenbaum  (2015a,b)应用机器学习分类器来匹配历史记录中从而量化大萧条时期的社会流动性

Bernheim, Bjorkegren, Naecker and Rangel(2013)将参加实验室的被调查者数据进行机器学习从而根据调查响应预测实际选择
2. 估计预测
第二类应用是估计预测的任务。比如以线性工具变量的情况理解两阶段回归过程:
  1. 首先在工具变量z上进行回归:

    2. 然后在拟合值上进行回归

通常将第一阶段作为估计步骤。但这实际上是一项预测任务:只有预测进入第二阶段。第一阶段的系数仅仅是达到这些拟合值的一种方法。而工具变量中的有限样本偏差是过度拟合的结果。过度拟合意味着样本内拟合值不仅拾取,而且拾取噪声。结果导致偏向x,从而使得第二阶段的估计值因此偏向x与y的普通最小二乘估计。相关文献整理如下:

作者研究内容
Bound, Jaeger, and Baker 1995; Bekker 1994; Staiger and Stock (1997).
论证当样本量少,工具数量多或工具功能弱时,过度拟合会更严重。
Angrist and Krueger (1995)
运用拆分样本工具变量法确保了我们对函数预测质量的评估是公正
Angrist,Imbens and Krueger (1999)
运用“折刀”(’jackknife’)样本工具变量法确保了我们对函数预测质量的评估是公正
Belloni, Chen, Chernozhukov and Hansen (2012)
运用LASSO模型将正则化引入了高维环境的第一阶段
Carrasco,(2012);Hansen and Kozbur,(2014)
运用岭回归模型将正则化引入了高维环境的第一阶段
Hartford,Leyton-Brown and Taddy (2016)
运用神经网络将正则化引入了高维环境的第一阶段
Lee,Lessler and Stuart(2010)
使用机器学习算法来估计倾向得分
Imai and Strauss(2011)
使用决策树估算的处理效果
Chernozhukov,Chetverikov,Demirer,Duflo,Hansen and Newey(2016)
通过解决两个同时发生的预测问题从而解决了高维控制问题
Misra and Dubé(2016)
通过将贝叶斯正则化方法应用于随机分配价格的大规模实验说明定价问题
Athey and Imbens (2016)
构建的异质性回归树提供对每片叶子的处理效果的有效估计

3.政策预测

有关文献如下:

作者研究内容
Kleinberg et al. (2017)
预测算法是否可以类似地帮助改善法官的决策
Kleinberg,Ludwig,Mullainathan and Obermeyer (2015)
保释金之类的预测政策问题
Kane and Staiger (2008); Dobbie 2011; Jacob et al(2016)
决定聘用哪位教师需要做出预测:聘用时可用的信息来预测教师的个人素质
Chalfin et al. (2016)
提供了一些机器学习如何提高这些以及其他人员决策的预测准确性的初步证据。
Chandler,Levitt and List(2011)
预测高风险青年,以便可以适当地针对辅导干预措施。
Abelson,Varshney and Sun(2014);McBride and Nichols(2016);Engstrom,Hersh and Newhouse(2016)
使用机器学习相对于现有贫困计分卡来改善贫困目标。

4. 测试理论

有关文献如下:

作者研究内容
Moritz and Zimmermann(2016)
运用机器学习的方法对美国公司的过去回报做出了预测,证实对未来的股价具有重要的预测能力
Kleinberg,Liang and Mullainathan(2015)
建议将理论的预测能力与最佳预测因子的能力进行比较。
Peysakhovich and Naecker(2015)
将行为经济学模型在风险和歧义下的选择的样本外表现与理论上的机器学习基准进行了比较。
结论
对于经验主义者而言,理论驱动和数据驱动的分析模式总是共存的。理论驱动的评估方法大多基于自上而下的理论演绎推理估计模型。例如,经济学的应用大多围绕参数估计展开:对依赖和解释变量之间关系的参数进行良好估计。而数据驱动的评估方法大多简单地让数据说话。机器学习提供了一个强大的工具,可以更清晰地听到数据所要表达的内容。区别于参数估计,机器学习属于计量经济学中预测工具箱的一部分,更加适用于经济学中的预测任务。这两种方法并不冲突。理论可以指导在实验中要操纵哪些变量;但是在分析结果时,机器学习可以帮助管理多个结果并估计异类处理效果。
从长远来看,新的经验工具有助于扩大我们正在研究的问题的种类。最终,机器学习工具可能扩大我们的工作范围,不仅是通过提供新数据或新方法,而且还要使我们专注于新问题的研究。

长按以上二维码可以阅读Machine Learning: An Applied Econometric Approach原文

关于一些计量方法的合辑,各位学者可以参看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存