经济金融学研究中的大数据革命, 将来的实证研究该何去何从？

Original 计量经济圈计量经济圈 2022-12-13

收录于合集

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

①重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容！②重磅! 汉森教授首次为学者强烈推荐的对应不同层级的世界级计量经济学教材！

关于大数据: 1.大数据给经济学和社会学研究带来了什么挑战？2.大数据时代计量经济学发展展望？3.洪永淼教授履新后首次讲座"大数据革命和中国经济学研究范式", 附送一份PPT供参阅！4.权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿！5.金融学文本大数据挖掘方法与研究进展, 金融学者看过来！6.大数据时代计量经济学若干重要发展方向，7.大数据推动计算社会科学发展，8.文本大数据分析在经济学和金融学中的应用, 最全文献综述，9.机器学习和大数据计量经济学, 你必须阅读一下这篇，10.大数据面前, 统计学到底何去何从, 取消统计学专业？11.机器学习在微观计量的应用最新趋势: 大数据和因果推断

正文

关于下方文字内容，作者：阳宇川，华东师范大学金融学，通信邮箱：ycyang227@sina.cn

Itay Goldstein, Chester S Spatt, Mao Ye, Big Data in Finance, The Review of Financial Studies, 2021;, hhab038, https://doi.org/10.1093/rfs/hhab038
Big data is revolutionizing the finance industry and has the potential to significantly shape future research in finance. This special issue contains papers following the 2019 NBER-RFS Conference on Big Data. In this introduction to the special issue, we define the “big data” phenomenon as a combination of three features: large size, high dimension, and complex structure. Using the papers in the special issue, we discuss how new research builds on these features to push the frontier on fundamental questions across areas in finance—including corporate finance, market microstructure, and asset pricing. Finally, we offer some thoughts for future research directions.

摘要

大数据已经在金融行业中掀起一场革命，同时也展现出重塑未来金融研究的潜能。这一专刊收录了2019年RFS-NBER大数据会议的相关文章。在本文第二部分，我们定义了“大数据”的三个特征：大量、高维和复杂结构。通过回顾专刊中的文章，我们讨论了建立在这些特征上的新兴研究在公司金融、微观市场结构、资产定价等不同金融领域的表现，以及对一些金融基本问题的推动和再发现。最后，我们提供了一些关于未来金融研究方向的思考。

引言：大数据革命

数字时代创造了海量的数据，并仍将以指数化方式增长。根据国际数据公司IDC的估计，当今世界每两天产生的数据比2003年以前人类历史中产生的所有数据总和都要多。这场新兴革命正在重塑金融行业，正如《华尔街日报》所言：“华尔街的交易大厅最终将由一群卡内基梅隆大学的博士组成，而不是沃顿商学院的MBA们。”

在学术界，大数据也开始逐步显露其影响力，但仍伴随着许多问题。传统的大数据3V定义（大量volume、高速velocity、多样variety）与工程学和计算机科学有着紧密联系，却无法完全反映其给金融研究与实践带来的机遇和挑战。金融中的“大数据”究竟意味着什么？金融经济学家们将如何从中受益？大数据是开辟了新的研究命题，还是让我们以更新颖和更具启发性的方式来回答传统问题？这到底是一次范式的转变，还是仅仅只是渐进式变化的延续？毕竟，大体量数据集一直以来都是金融研究的特色。

本特刊首先定义了金融研究视角下大数据的三个特征；接着回顾六篇收录的文献，以说明大数据的实际运用；最后，讨论了未来研究中大数据的应用导向。

金融中的大数据

金融中对于大数据的定义应区别于统计学或工程学。这些学科通常关注于收集、处理和展示数据的过程，而金融经济学家则更希望将其应用于解决经济问题。由于大数据仍处于发展初期，我们很难给出完善、精确的定义，但它可以作为未来迭代和修正的基础。特别地，我们将大数据分解为以下三个属性：

l 大量（Large size）。这可以从绝对和相对意义两个方面理解。绝对意义上，一个自然的例子是微观市场交易数据。大数据也可以从相对的“小数据”来理解：现有的许多数据集之所以是“小”的，是因为它们是更大数据集的子集。通过分类子样本或在时间序列数据中截取区间，大数据集被分割成数个小数据集。如果使用更大量的数据可以克服小数据面临的选择偏误或发现重要的经济活动，那么大数据就是合理且必要的。

l 高维（High dimension）。大数据通常包含许多变量，有的甚至比观测值更多（即“长表”）。机器学习作为大数据研究的标志性产物，在处理多变量问题时有着较好的表现，因此越来越广泛地用于金融研究中。如果研究满足（但不限于）下列三个条件，那么机器学习技术就是有价值的：①真实经济问题涉及许多变量；②变量的影响是高度非线性的，或存在变量之间的交互项；③经济预测比统计推断更重要。实际的应用场景包括算法交易或智能投顾等机器主导的决策问题。

l 复杂结构（Complex structure）。有时数据不会以传统的行-列格式出现。非结构化数据如文本、图像、视频、音频和语音等，可以刻画结构化数据无法描述的经济活动及现象（比如情绪）。非结构化数据一般是高维的，因此分析数据的第一步通常是借助深度学习和计算机科学来查看数据特征。比如，研究者可以利用自然语言处理（NLP）获取文本中的语义学信息，利用语音识别（speech recognition）确定声音和音频中的音调，还可以通过计算机视觉（CV）提取图像和视频蕴含的地理信息等。

总的来说，随着大数据集可得性的增加，处理高维数据方法论的发展，以及非常规数据处理方法的出现，都导致了大数据在金融研究中地位的日益突出。接下来通过回顾六篇最新相关文献，本专刊讨论了大数据在各个金融领域内的具体运用。

表1 专刊收录文献一览文献作

文献作者	研究领域	主要内容
Erel et al.	公司金融	研究董事个人特征与其在年度选举中表现的关系，发现机器学习比OLS更能准确预测董事的受欢迎程度。
Li et al.	提供一个最新的机器学习方法--词向量模型(word2vec)以量化企业文化。
Easley et al.	市场微观结构	使用随机森林分类算法探究在算法主导的交易市场下，传统市场微观结构指标是否仍能解释和预测市场变化。
Anand et al.	采用了一个超大规模的数据集，研究证券经纪商通过另类交易系统处理订单是否会导致更严重的代理问题。
Benamar, Foucault, and Vega	借助数据服务商Bitly，探讨市场不确定性、信息需求与美国国债价格的关系。
Giglio, Liao, and Xiu	资产定价	建立了一套理论框架，综合使用多种机器学习方法，减轻了资产定价领域中数据窥探和“伪发现”的担忧。

Erel et al., 2021：机器学习与董事选举

1）研究主题

董事选举是公司治理的重要环节。由于人们投票的依据是对潜在候选人未来表现的预期，因此董事选举实际上是一个预测问题。相对来说，传统的计量方法多用于估计结构变量和因果推断，而机器学习则更适合做出预测。这篇文章构建了一个基于算法的数据驱动模型，根据董事个人特征预测其在特定公司的年度选举中的表现。

2）主要研究方法

董事的行为往往呈现集体性和关联性特征，因此很难在日常公司经营中单独分离出单个董事的表现。作者根据Hart and Zingales（2017），选用股东在年度选举中对特定董事的支持度作为董事表现的代理变量；其依据为董事的信托责任是代表股东的利益，因此董事表现越好受到的支持也越多。特别地，定义主要被解释变量excess vote：某董事三年内平均获得的选票数占所有候选人得到的总选票数的比例。

模型中对董事表现有预测力的因子包括公司和董事个人属性，如性别、年龄、人际关系网络和任职经历等。作者使用了Lasso、XGBoost和神经网络等多种机器学习算法，并取2000~2011年2407个公司和12815个董事及候选人的样本数据作为训练集训练模型，以发现何种变量的组合可以更好地预测董事的未来表现。最后，将2012~2014年的数据作为测试集，与传统的OLS模型对比预测结果。

3）主要结果

文章发现，在样本外测试中，根据算法预测在选举中将会表现糟糕的董事，得到的选票确实不尽如人意。董事在现实中的表现与模型预测的表现排名高度相关，证明了机器学习的有效性。

与之对应的，如FIGURE 1和TABLE 3所示，传统的OLS模型无法有效预测董事表现，模型得到的投票排名和对应董事现实的受欢迎程度并无显著关系。为了排除模型设定偏误的影响，作者对15个不同的模型进行了OLS回归，并使用赤池信息准则（AIC）判断估计质量。在TABLE 3中报告的模型是15个中表现最好的，进一步说明了机器学习的优越性。

文章对预测结果的深入分析还发现，那些算法不看好但却选举成功的董事往往拥有一些共同特征，如更多为男性、拥有更大的社交网络或在更多的董事会中任职等。一种解释是企业通常会选择更同质的董事，而算法倾向于多样化的董事会。此外，结果表明算法预测与现实差异较大的公司面临更严重的公司治理问题，暗示代理冲突可能是董事选举扭曲的一个原因。

关于OLS模型在选举预测中的失败，作者认为这主要是因为变量的非线性和交互性。这一结论也为未来的研究提供了可行的方向，即探讨变量交互项和非线性关系在模型中的重要性。

Li et al., 2021：NLP与企业文化

1）研究主题

作者试图量化企业文化的概念并考察其意义。虽然公司文化一直以来都被视为商业成功或失败背后的重要因素，但数据上的挑战让相关研究难以进行。事实上，在Graham et al.（2018）的访谈研究中，企业高管们推荐了11个度量文化的数据来源，而其中大多数都是非结构化的。这篇文章使用了其中一个资源——财报电话会议记录，并借助自然语言处理（NLP）提取其中代表企业文化的关键要素。

2）主要方法

首先，作者使用word2vec进行文本向量化。不同于传统粗暴计数的字嵌入方法（即计算邻近词的出现次数并将其作为目标词的向量表示），word2vec通过一组参数预测可能的邻近词，从而倒推出目标词的含义，并将该组参数作为此特定词语的词向量。在学习的过程中，参数一开始是随机初始化的，随后通过反向传播法进行调整。经过一定次数的迭代循环，作者得到了大量固定维数（一般处于50~500之间）的词向量。

文章使用5个标普500公司网站中最常提到的词汇作为起点：创新、正直、质量、敬畏和团队。同时，作者也借用Guiso, Sapienza, and Zingales（2015）提供的与各个核心价值相关的“种子词汇”，与5个核心词汇一起作为度量的基准。考虑到某些词语具有学科特征，在金融和其他行业语境下表现出不同的涵义，作者在训练模型后手工检查了核心/种子词汇及其同义词，以确保5个公司文化的定义清晰明了。此外，作者还加入了种子词汇的不同语法形式和同义短语。

接下来，作者需要创建每个企业的“文化词典”。任意两个单词之间的相关性由它们词向量的余弦相似度得出。根据这种方法，作者将财报会议记录中的词语与种子词汇联系起来，建立了异质的文化词典。最后，作者人工检查并剔除不合适的词语，如命名实体、特殊涵义词语或过于广义的词汇等。

最后一步是在公司-财年层面构建每个观测的文化指标。每种文化的得分是其相关词语的加权计数占总词数的比例。特别地，作者使用反比文档频数权重评价方法（tf-idf）加权。这种方法对频率更高的词汇赋以更低的权重，从而减少对公司“自我宣传”的担忧。

3）研究贡献

以往关于企业文化的研究主要使用代理变量或采用调查/访谈的方式。这篇文章使用最新的词向量模型来度量文化，从而可以处理大样本的面板数据。在方法论上，词向量模型可以突破传统的词袋模型把字词视为相互独立符号的假设，因此避免了忽略上下文语境导致的偏误，将语法表达层面的量化方法推进到语义层面；另外，作者在训练模型中运用半监督机器学习方法，兼顾监督学习和无监督学习的缺点，使之在上述两者都失效的环境下（如缺少已标记的实例、企业属性较为微妙且无法直接从数据得出）仍然可行。

4）主要结果

如表2所示，对公司的文化评估发现，创新是最常提到的文化词语，而正直是相对最少的。

表2 公司文化的描述性统计

表3展示了不同文化之间的相关性，作者发现创新与产品质量之间的相关度最高，达到0.490；而正直与质量之间的相关性最低（0.023）。此外，对文化和公司特征之间的关系研究发现，企业的规模与杠杆与除正直以外的四个文化因子显著负相关；ROA与所有文化因子都显著负相关。这一现象符合通常的解释，即具有强大文化的公司倾向于更多的R&D投资和SG&A，因此放弃了部分短期的利润而着眼于长远发展。

表3 相关性矩阵

文章的进一步研究还发现，在公司的困难时期，文化与绩效的关系更加显著；企业文化也可以被M&A等重大事件影响或重塑。特别地，创新文化和敬畏感更强的企业倾向于成为收购者，且文化相近的公司之间也更容易成功兼并。

Easley et al., 2021：机器时代的市场微观结构

1）研究主题

随着市场逐渐机器化、算法交易和高频交易越来越普及，从前基于单一市场和简单结构的经验指标可能无法再维持其解释和预测效力。作者使用机器学习方法，检验传统的市场微观结构指标是否仍能解释和预测市场。

2）主要方法

采用全球87个最具流动性的期货产品的5年波动数据，这篇文章检验了6种市场指标（the Roll measure，the Roll impact，VIX，Kyle’s ，the Amihud measure，VPIN）对5种市场产出（买卖价差、实际波动率、JB统计量、收益率的峰度和偏度、实际收益的序列相关性）的预测能力。

作者运用随机森林分类算法进行实现。机器学习中分类的目的是用一组解释变量来预测离散或分类的被解释变量，类似传统回归的最小方差思想。但由于被解释变量具有离散的特点，因此需要用交叉熵或信息增益取代标准的误差函数。特别地，作者将解释变量视为一组特征，将被解释变量视为有限的标签集。对每一个期货合约样本应用算法，得到了从特征变量到标签集的一个映射。

为了进一步精确度量不同特征对随机森林层次结构的贡献，作者使用两种特征重要性度量方法：平均不纯度减少（MDI）和平均准确度减少（MDA）。MDI评估森林中每个特征的信息增益，并以其样本数量为权重加权求和，最后标准化得分。对于给定的数据集，特征i的MDI为：

其中IG(·)代表数据集S在节点n分叉的信息增益，p代表数据集中第i类特征的数量。

需要指出的是，MDI是一种样本内方法，类似回归分析中的P值。而MDA通过样本外测试计算特征重要性。其步骤为：①将数据集分割为互斥的训练集和测试集；②在训练集上用所有的特征变量训练一个分类器；③用该分类器预测测试集，并记录表现结果；④随机改变测试集的一个特征变量值，重新进行预测并记录结果。MDA的表达式如下：

其反映了变动特征i对结果产生的影响程度有多大。变动后的表现越差，说明特征i的重要程度越高。

3）主要结论

作者对每种变量和每个产出都进行了MDI和MDA特征重要性测试，表4列出了其中各指标对序列相关性的度量结果。每个单元格以“均值”±“标准差”的形式呈现，按不同的窗口大小分组，每个组内重要性最高的特征被加粗。可以看出MDI方法下Amihud指标和VIX波动指标对序列相关的解释较好，而运用MDA时Roll指标表现最佳。样本内和样本外的测试中出现了显著不同的结果，说明部分指标仍具有较强的解释现实能力，但难以用于预测未来（反之亦然）。但总的来说，在高频交易和机器交易开始占据主导的市场中，传统指标仍能有效预测期货的价格和波动性。

表4 各指标对序列相关性的MDI（上）和MDA（下）特征重要性

此外，作者还发现进行预测的函数形式取决于其应用场景。在研究单一资产时，简单logistic回归与复杂机器学习算法得到了几乎一样好的结果。对此的解释可能是人们已经对单一资产的市场结构有了深刻的认识。但对跨资产进行分析时，机器学习显著优于简单回归。尽管很少有市场微观结构的理论能解释跨资产交易效应为什么能产生，Easley et al.（2021）的研究却有力证明了资产之间的相互作用可以预测市场产出，且机器学习能解决其伴随的高维数据结构挑战。

Anand et al., 2021：经纪人与机构投资者的代理冲突

1）研究主题

这篇文章研究了一个巨大的、未被识别的潜在代理问题，即经纪人是否通过其拥有的另类交易系统（ATS）发送指令与其提供服务质量好坏的关系。作者主要回答两个问题：经纪人是否会更愿意利用自有ATS发送订单？以及，其对ATS的偏好和执行质量之间是否存在显著关系？

从理论上分析，使用ATS可以为经纪人节省过户费等支出并提高收入，或为客户提供流动性优势；但同时也带来了高度信息不对称问题，导致机构投资者难以有效监管其代理人的行为。因此自有ATS对代理质量的影响是不确定的。然而，实证研究一直受到数据方面的掣肘：贸易和报价数据库（TAQ）并未公开经纪人身份信息，且自述型数据易受到磨损和样本选择偏见的影响。作者在这篇文章中使用来自FINRA的一个超大规模数据集OATS以克服上述困难。

2）主要方法

作者在交易指令层面开展研究。基于市值规模对2016年10月内交易的股票进行分层抽样，得到300只股票样本；选择43个典型的机构型证券经纪商；与TAQ数据库对比检查并填充缺失值。最终，作者得到了一个包含超过3.5亿个订单信息的大规模数据集。

对于代理质量，作者主要从四个方面进行衡量：①完成率fil**l rate表示所有递交的母订单中完成的比例；②有效价差effective spread，定义为订单的加权价格与同时间NBBO中间价的百分数差；③执行延迟delay表示订单完成部分的价格漂移成本与未完成部分的清算成本之和；④执行差额s**hortfall度量以收盘价计算的当日未完成订单成本。执行质量与ATS倾向的基准回归模型如下：

其中Yi,s,t代表t日经纪人i对股票s交易的执行质量，核心解释变量Affiliated ATSi,s,t表示该股票交易中通过自有ATS进行处理的订单比例。X是其他控制变量。

3）主要结果

表5 基准回归结果

表5展示了模型(4)的回归结果。从第1~3列可以看出，更喜欢选择自有ATS的经纪人可能会完成更少的订单；具体地，自有ATS订单的比例每上升1个标准差，完成率平均将下降11.6个百分点。对shortfall的回归结果表明，对ATS倾向较高的经纪人完成订单的执行差额成本也较高。此外，有效价差与ATS倾向没有显著关系；而执行延迟与执行差额的结果较为相似，说明差额成本主要源于价格漂移和清算支出。总的来说，作者发现自有ATS确实与代理冲突高度相关，经纪人通过其所有的ATS完成客户指令可以提高收入，但同时损害了客户的利益。

这篇文章的主要特点是使用了异常大的数据集，以至于即使是其中的一部分子样本也蕴含着丰富的结论。作者利用SEC的Tick Size Pilot（TSP）改革建立了一个准自然实验，使用相同区间内的子样本构建三重差分模型，发现受到TSP政策影响且更偏爱自有ATS的经纪人在政策实施后的代理服务质量有显著提高，证明了ATS倾向与代理问题之间存在因果关系。

Benamar, Foucault, and Vega (2021)：不确定性、信息需求与资产价格

1）研究主题与理论

Benamar et al.（2021）探究了美国国库券对宏观经济公告的价格反应与信息需求及市场不确定性的关系，发现国债价格的响应程度与对信息的需求大小高度相关。虽然贝叶斯学习模型认为当投资者在事前取得了更多的信息时，事后资产价格受到的影响应该更弱；但作者认为信息需求是内生的，即投资者获取信息的动机来源于结果本身的不确定性。因此，信息需求可以作为市场不确定性的一个代理变量：当外生冲击导致不确定性上升时，投资者将试图获取更多信息，但无法完全抵消额外的不确定性。

2）主要方法

作者选取了2011~2016年66个非农就业公告作为宏观经济的冲击，并以标题中包含“就业”的网页在新闻发布前两小时内的点击量作为信息需求的代理变量。不同于Li et al.（2021）自己处理数据的做法，作者借助一个商业数据供应商Bitly来帮他们将非结构化数据转换为结构化数据。Bitly是一个短链接供应商，可以缩短新闻等网页的链接长度，使其匹配社交平台的字符数要求，从而促进了信息的传播。此外，Bitly还提供了其短链接的相关统计数据，如点击量、设备使用量及地理位置等。基于此，作者建立了一个信息需求的度量指标（Bitly Counts）。

3）主要结果

作者按非农就业信息的冲击方向以及相关网页点击量的高低将样本分成四组，绘出国债累计收益率在公告前后随时间变化的图像。如Figure 5所示，信息需求更高时国债价格的波动更大，且没有出现明显的不充分反应或过度反应现象。具体地，作者发现非农就业新闻发布前两小时的相关Bitly点击量每上升一个标准误，美国国库券利率波动大小就会显著增加4至6个基点。

这篇文章不仅贡献了重要的结果，而且也为大数据时代的金融研究指明了新的道路：随着数据的爆发式增长，数据供应商行业也在蓬勃发展。因此，金融学家们可以与商业数据供应商合作，获取更全面和更方便的数据并减少数据处理过程中的精力耗费。

Giglio, Liao, and Xiu (2021)：实证资产定价中的多重假设检验

1）研究主题

数据窥探（data snooping）一直是实证资产定价领域的普遍问题。当人们想要在上百个异象中找到能解释股票截面收益率差异的因子，或在上千家基金中找到能提供正收益的基金时，标准方法是对样本进行许多独立的t检验并根据显著性做出选择。然而，随着假设检验数量的增加，一些通过t检验的因子可能只是出于运气。这导致这些因子无法在样本外测试中表现出同样的解释力，从而成为数据窥探下的“伪发现”。

作者使用了一系列机器学习技术，试图建立一个完整框架来严谨地执行线性资产定价模型中的多重假设检验，并将错误发现率（FDR）控制在一定的程度内，以消除数据窥探的担忧。

2）主要方法

应对多重检验问题的一个传统方法是Family-Wise Error Rate（FWER），即面临N个检验时对每个检验的显著性水平都设定为5%/N。但是，这可能会导致“因噎废食”的结果：因为极少的潜在伪发现错误而对所有检验设定异常高的门槛，使原本大于零的可能无法被识别出来。因此，文章使用Benjamini and Hochberg（1995）提出的B-H方法，其目标是控制伪发现出现的概率（即错误发现率FDR）。

在此基础上，作者综合运用一套技术来减少缺失样本的担忧和增强稳健性。为了填充缺失数值并寻找潜在因子，作者借鉴了矩阵补全法（Matrix Completion），由此构建的潜在因子修正了检验中的相关关系；另外，作者还使用了自体抽样法（Wild-Bootstrap）和筛选法（screening）确保有限样本的多重假设检验的鲁棒性。

特别地，作者采用1994~2018期间的对冲基金数据来验证其理论模型。在样本内回归中，根据文章建立的FDR模型选取的正基金数量显著少于单纯做独立t检验的方法，说明一定程度上减轻了“伪发现”的错误；且这一结果在样本外测试中依旧稳健。虽然文章只使用了对冲基金样本，但作者相信这一模型框架在其他资产定价领域中具有同样的应用价值。

大数据研究何去何从

以上六篇文献可以作为金融研究中大数据应用的起点。作为一个新兴领域，大数据伴随着许多问题与机会。我们讨论了几个可行的研究方向，希望能带来启发。我们相信随着时间的推移，这个清单将会不断完善和更新。

1. 机器学习

当研究面临决策者为计算机的问题时，机器学习可以有较好的应用场景。例如，现有研究资产定价的文献往往使用月度收益率数据或季度的持股数据；但现在利用机器学习技术的交易者却通常在更小的尺度上交易。量化交易的对冲基金巨头如文艺复兴、Two Sigma、D.E. Shaw等，管理着上百亿美元的资产，却因为交易速度快于传统基金且慢于高频交易，而很少出现在金融学术文献的研究范围内。因此，一个可能的研究方向就是连接传统的基于月度数据的研究与高频交易下秒次层面的研究。在这片未开发的领域，应用机器学习不仅是自然的也是必要的。正如心理学对人类行为的剖析造成了行为金融学的兴起，对算法行为的研究或许也可以催生“算法行为金融学”的繁荣。

2. 大数据的反馈效应

当算法交易成为主流，企业是否应改变其行为？机器学习在投资界的广泛引用以及其对二级市场和公司决策的反馈效应，都暗示了企业应该对大数据革命有所反应。对这一问题的探讨在Cao et al.（2020）中初现端倪，他们发现企业调整了其季报和年报以适应机器交易者的需求。

下一步研究可能是考察企业是否在运营的决策中也考虑了算法交易的作用。举例来说，当投资者结构逐渐由以人为主变成以机器为主时，企业是否会更多地投资一些短期的项目？大数据革命是会导致管理者减少对市场价格信息的依赖（因为现在有了更多的信息来源），还是更多地研究价格（因为市场价格包含了更多的投资者信息）？

3. 大数据的负面效应

虽然大数据为机构投资者或企业提供了更多的有效信息，但其影响并非总是积极的。由于社交媒体大大提升了市场情绪的传播速度和广度，因此在突发事件中市场价格可能会远远偏离其基础价值。在Chawla et al.（2019）的研究中，散户交易造成的价格偏离之所以快速恢复，主要是由于机构套利者进入市场并消除了套利机会。但是，2021年1月的GameStop事件中我们也见证了社交媒体对资本市场的巨大影响力。散户们在社交网站上联合起来，导致了梅尔文对冲基金亏损达53%。散户与机构的相互博弈引起了市场的剧烈波动。因此，大数据对社会在不同方面的影响以及其总效应是一个值得探究的方向。

4. 更复杂的数据

大数据在金融中最初体现为大体量的数据分析，而最新的技术发展让研究者得以利用自然语言处理（NLP）从文本中提取信息。因此一个有希望的研究方向是通过分析更多的非结构化数据，如音频、视频和图像等，从新的视角看待经典问题。如同本刊提到的Li et al.（2021）从财报电话会议记录中获取企业文化的数据一样，越来越多的学者利用更复杂的数据集开展研究，如卫星图像（Gerken and Painter，2020）。这些数据集可以提供一些简单结构化数据无法捕捉到的经济活动信息，因而具有相应的研究价值。

5. 监管

在交易越来越机器化的背景下，为人类设立的监管制度是否也需要进行调整是一个有意思的话题。例如，监管者通常会忽略1手以下的交易并免除这些“零碎股”交易的披露要求。然而，机器交易者逐渐变成这种交易的主要参与方，因为他们可以利用算法以小于1手的数量下单，从而规避监管。评估潜在的算法交易问题可能是非常重要的，因为这可能是其他一些常见问题的核心，如做市商是否抢先操作、经纪人是否尽到了信托责任以及内部人员是否存在内幕交易的情况等。

另一条与监管相关的研究路径是讨论算法和数据的隐私性和公平性问题。早在2017年，《经济学人》就发表了封面文章称“数据已经取代石油成为当今世界最有价值的资源”，并呼吁对数字经济实行新的监管。数据如何分配、如何定价，数据不公平又会造成什么后果？这一问题亟需新的理论和实证研究。

6. 理论

本专刊中收录的文献主要是实证型文章，但理论研究也是必需的。机器学习相较于传统计量模型的成功主要源于变量之间的高阶交互项以及非线性特征，因此可以建立新的理论模型来解释为何一个经济变量的影响取决于其与另一个变量的交互作用，或为何一个变量的影响与其自身的大小有关。机器学习是描述世界的一种方式，但我们也需要理论来解释它。

机器学习与人工智能的另一个特征进一步强调了理论模型的重要性：人类的行为常常是不一致的，但机器永远基于其底层模型做出决策。Li and Ye（2020）发现其理论模型甚至可以定量地预测重大事件发生后截面上的市场流动性，其中一个可能的原因就是市场参与者主要是算法，而这些算法可能正是使用了与Li and Ye（2020）相似的模型。

7. 跨学科

未来的大数据研究可能需要更多其他学科的学者参与。对于大规模数据集的处理困境，研究者可以与超级计算中心合作，后者通常拥有较深厚的技术和人力资源，如XSEDE。面对高维数据和复杂结构的挑战，经济学家们可以与数学、统计学或计算机科学的学者合作，利用NLP、语义识别或计算机视觉等技术处理文本和音视频数据。此外，研究者还可以寻找商业数据供应商。J.P. Morgan的报告《大数据与人工智能战略》中列出了一个数据供应商清单，可以有偿处理情感度量或信用卡的使用等另类数据。我们相信，不同学科学者之间的鼎力合作可以拓宽和加深金融经济学的研究，并帮助研究者们克服大数据的挑战。

美国国家科学基金会（NSF）将大数据列为其十大理念之一，并为创新的、跨学科的研究提供资金支持。我们希望这篇特刊只是一个开始，未来可以看到更多大数据在金融和政策研究中的应用。

本刊收录的文献

[1] Anand, A., M. Samadi, J. Sokobin, and K. Venkataraman. 2021. Institutional Order Handling and Broker-Affiliated Trading Venues. Review of Financial Studies: this issue.
[2] Benamar, H., T. Foucault, and C. Vega. 2021. Demand for Information, Uncertainty, and the Response of US Treasury Securities to News. Review of Financial Studies: this issue.
[3] Easley, D., M. Lopez de Prado, M. O’Hara, and Z. Zhang. 2021. Microstructure in the Machine Age. Review of Financial Studies: this issue.
[4] Erel, I., L. Stern, C. Tan, and M.S. Weisbach. 2021. Selecting Directors Using Machine Learning. Review of Financial Studies: this issue.
[5] Giglio, S., Y. Liao, and D. Xiu. 2021. Thousands of Alpha Tests. Review of Financial Studies: this issue.
[6] Li, K., F. Mai, R. Shen, and X. Yan. 2021. Measuring Corporate Culture Using Machine Learning. Review of Financial Studies: this issue.

关于机器学习

1.机器学习之KNN分类算法介绍: Stata和R同步实现（附数据和代码），2.机器学习对经济学研究的影响研究进展综述，3.陈硕: 回顾与展望经济学研究中的机器学习，4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险！6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了！7.前沿: 机器学习在金融和能源经济领域的应用分类总结，8.机器学习方法出现在AER, JPE, QJE等顶刊上了！9.机器学习第一书, 数据挖掘, 推理和预测，10.从线性回归到机器学习, 一张图帮你文献综述，11.11种与机器学习相关的多元变量分析方法汇总，12.机器学习和大数据计量经济学, 你必须阅读一下这篇，13.机器学习与Econometrics的书籍推荐, 值得拥有的经典，14.机器学习在微观计量的应用最新趋势: 大数据和因果推断，15.R语言函数最全总结, 机器学习从这里出发，16.机器学习在微观计量的应用最新趋势: 回归模型，17.机器学习对计量经济学的影响, AEA年会独家报道，18.回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现），19.关于机器学习的领悟与反思，20.机器学习，可异于数理统计，21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣！24.机器学习已经用于微观数据调查和构建指标了, 比较前沿！25.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子？

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

经济金融学研究中的大数据革命, 将来的实证研究该何去何从？

摘要

引言：大数据革命

金融中的大数据

Erel et al., 2021：机器学习与董事选举

Li et al., 2021：NLP与企业文化

Easley et al., 2021：机器时代的市场微观结构

Anand et al., 2021：经纪人与机构投资者的代理冲突

Benamar, Foucault, and Vega (2021)：不确定性、信息需求与资产价格

Giglio, Liao, and Xiu (2021)：实证资产定价中的多重假设检验

大数据研究何去何从

本刊收录的文献

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

经济金融学研究中的大数据革命, 将来的实证研究该何去何从？

摘要

引言：大数据革命

金融中的大数据

Erel et al., 2021：机器学习与董事选举

Li et al., 2021：NLP与企业文化

Easley et al., 2021：机器时代的市场微观结构

Anand et al., 2021：经纪人与机构投资者的代理冲突

Benamar, Foucault, and Vega (2021)：不确定性、信息需求与资产价格

Giglio, Liao, and Xiu (2021)：实证资产定价中的多重假设检验

大数据研究何去何从

本刊收录的文献

您可能也对以下帖子感兴趣