权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿！

Original 计量经济圈计量经济圈 2022-12-13

收录于合集 #实证研究中常用计量方法小集子 107个

凡是搞计量经济的，都关注这个号了

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

photo courtesy: bing

关于时间序列方法，我们引荐了1.时间序列分析的各种程序, 38页集结整理成文档，2.ARDL, ARIMA, VAR, (G)ARCH时间数据模型讲解及软件操作，3.R软件中的时间序列分析程序包纵览，4.时间序列分析的各种程序, 38页集结整理成文档，5.时间序列数据分析的思维导图一览, 金融经济学者必备工具，6.送书: 应用时间序列分析(经典)，7.为啥时间序列模型比较难学？时间序列的正名路，8.面板数据单位根检验软件操作和解读全在这里，9.动态面板回归和软件操作，单位根和协整检验（Dynamic Panel Data），10.疫情期计量课程免费开放！面板数据, 因果推断, 时间序列分析与Stata应用，11.送书: 应用时间序列分析(经典)，12.时间序列模型分解，季节调整分析基础，13.动态因子模型是什么, 又怎么去实现？ 14.动态面板分位数估计怎么做？15.动态面板门槛回归程序公布, 使用方法介绍，16.把动态面板命令讲清楚了，对Stata的ado详尽解释

关于VAR方法，我们引荐了1.R软件中的时间序列分析程序包纵览，2.时间序列分析的各种程序, 38页集结整理成文档，3.时间序列数据分析的思维导图一览, 金融经济学者必备工具，4.送书: 应用时间序列分析(经典)，5.为啥时间序列模型比较难学？时间序列的正名路，6.时间序列中的协整检验和VECM，以及回归后的系列估计操作，7.时间序列模型分解，季节调整分析基础，8.空间和时间的计量，关注二位国人，9.TVP-VAR时变参数VAR系列文献和估计程序，10.向量自回归VAR模型操作指南针,为微观面板VAR铺基石，11.VAR宏观计量模型演进与发展，无方向确认推断更好，12.应用VAR模型时的15个注意点，总结得相当地道，13.面板数据单位根检验软件操作和解读全在这里，14.动态面板回归和软件操作，单位根和协整检验（Dynamic Panel Data），15.面板向量自回归PVAR是什么? 数据, 程序和解读一步到位，16.ARDL, ARIMA, VAR, (G)ARCH时间数据模型讲解及软件操作，17.动态因子模型是什么, 又怎么去实现？18.SVAR模型的起源、识别、估计与应用, 系统讲述，19.平滑转移自回归模型(STAR)应用与在R软件的操作，20.Copula函数，21.GVAR, 全局VAR模型是什么？该如何用软件实现, 有哪些研究文献和最新进展！

正文

关于下方文字内容，作者：宛子远，中国人民大学财政金融学院，通信邮箱：matt_wan@foxmail.com

作者之前的文章：1.结构性面板VAR是什么? 如何实现PSVAR呢？怎么解读？2.最全: ARCH, GARCH等模型家族是什么？软件如何做？怎么解释？

Elliott, Graham & Timmermann, Allan G, 2016. "Forecasting in Economics and Finance, Annual Review of Economics, https://www.annualreviews.org/doi/10.1146/annurev-economics-080315-015346
Practices used to address economic forecasting problems have undergone substantial changes over recent years. We review how such changes have influenced the ways in which a range of forecasting questions are being addressed. We also discuss the promises and challenges arising from access to big data. Finally, we review empirical evidence and experience accumulated from the use of forecasting methods to a range of economic and financial variables.

摘要：近年来，用于解决经济预测问题的方法不断发展。本文回顾了这些变化如何影响一系列预测问题，并且讨论了大数据给预测问题带来的机遇与挑战，最后总结了在经济和金融问题中应用这些方法的经验。

一、简介

近二十年来，预测模型的选择、参数的估计和预测精度的评价方法都有了很大改进。本文综述了这些发展如何帮助解决对研究人员来说至关重要的实际问题，并指出了一些遗留问题。并主要强调了以下几点

第一，经济预测从根本上说是一个决策问题，因此，预测问题背后的经济学应该发挥突出的作用。一个好的预测是在经济决策中产生低预期损失(low expected loss)的预测。因此，在选择预测模型、估计其参数和作出预测时，必须考虑不同错误(通常是对结果不同程度的高估和低估)所造成的代价。政策制定者、个人家庭或企业只有理解了潜在的损失函数，才能在两种预测方法之间进行权衡。

第二，不同的预测方法可以结合起来以改进预测。对某一特定预测方法的评估是通过考虑其预期损失或风险来进行的。这里使用的“风险”概念不同于它在金融中的含义。预测方法的风险依赖于数据生成过程中的未知参数，也依赖于预测者的损失函数。因此，几乎没有一种预测方法能统一地支配着其他替代方法。实际上，假设我们知道生成特定数据序列的真实过程，但不知道参数的值，这样就没有模型的不确定性了。然而，估计模型参数的意味着，较简单的、设定错误的模型实际上可能比具有估计参数的真实模型产生更好的预测。错误设计的模型和错误估计的参数，使得不同的预测方法往往可以结合起来产生改进的预测。在实践中，我们常常无法从统计学上区分具有相似预测效果的一组模型，因此，将来自这些模型的预测结合起来，而不是武断地试图确定单一的最优模型是有价值的。

第三，预测评价和模型比较是预测过程的重要组成部分。过往通常的做法是报告不同方法的风险估计（比如样本平均值），并且常常使用非正式的排序来比较不同模型的风险大小，忽视了标准误。但在过去的二十年里，检验统计和极限理论的文献不断发展，赋予了我们评估和比较不同模型预测性能的可能性。我们可以利用数据挖掘理论来评估和比较不同模型的预测性能。

二、经济预测的基础

与样本内评价的情况(11)形成鲜明对比的是，样本外的风险增加了k(需要估计的未知参数的数量)，第二项会在很大的时候趋向于0。然而，估计误差在有限样本中可能很重要，我们将通过蒙特卡洛模拟来说明这点。

2.4 蒙特卡洛模拟

我们通过一个简单的蒙特卡罗模拟来说明目前讨论的方法，该实验使用了2.3节中的线性预测模型和MSE损失形式。实验假设有10个潜在的预测因子。预测因子是联合正态分布的随机变量，并且在一段时间内是独立的。假设预测结果也服从独立正态分布，取决于k = 3或k = 6个预测因子的非零系数（此时剩余的10 - k预测因子的系数为零，因此不相关）

考虑下面几种方式生成的预测：

(a)使用所有可能的预测因素进行的OLS回归

(b)使用完全子集回归(complete subset regression, CSR)的方法，结合k = 3预测

(c)对所有可能的估计进行加权平均预测，权重由赤池信息量准则(AIC)给出

(d)基于AIC的最优模型

(e)套索算法(LASSO)和post-LASSO算法（post-LASSO方法使用LASSO方法选择哪些变量包含在回归中，然后使用OLS对选定的变量重新估计模型）11图1给出了这几种方法的风险函数（MSE作为的函数），追踪了非零系数下这些预测因子的预测能力。

图1 几种预测方法的比较

图1表明，没有一种预测方法具有绝对优势。如LASSO和CSR方法，可以缩小估计系数，对于较小的系数值表现较好。然而，对于较大的系数值，这些方法中的偏差会出现，其MSE会上升。当预测因子较弱时（即不能从统计意义上确定是否应该包括它们），这些方法表现的都不错。

在某些预测因子明显有用的情况下，试图确定哪些变量包括在内的方法比收缩方法(如套索和CSR)表现得更好。当k = 3时，尽管OLS具有良好的理论性质，但此时预检验或模型选择方法要优于所有包含10个预测因子的OLS预测。当k = 6时，这个结果并不成立，并且此时而且从预测的角度来看，更多的预测因子是相关的。

样本内和样本外风险的差异导致了模型选择不是一个可以直接解决的问题。许多方法都试图解决这个问题：AIC调整样本内损失估计使其更接近样本外损失，而交叉验证试图直接估计样本外损失。其他方法，如BIC(贝叶斯信息准则)和LASSO则倾向于更简洁的模型。

三、损失函数的重要性

理想情况下，用于构建预测模型的损失函数应该根据预测结果进行调整，这需要对预测情况背后的经济学含义有很好的理解。接下来我们提出两个损失函数形式设定导致的问题。

对于货币政策制定者来说，损失函数可能不仅涉及预测误差的大小(即预测值和实际值的差)，也包括结果本身的水平，或者其他状态变量，因为误差会本身随着潜在的经济状态而变化。在对美联储绿皮书预测的研究中，Patton和Timmermann(2007)发现，美联储倾向于对经济增长提供保守的预测(这与损失函数一致，损失函数对预测不足的惩罚小于对预测过度的惩罚)。然而，他们也发现，这在经济增速缓慢或中等的国家尤其重要。过度预测低增长州的经济增长可能会造成明显的代价，在这种情况下，美联储将无法适当地实施激进的货币政策措施。

第二个例子是，对于从事销售预测的公司来说，可能存在与扩大生产或管理库存的可能性相关的技术和经济约束。另一个值得关注的问题是，如果企业生产太少，无法提供足够的产品，对顾客行为的影响。因此，工程数据和客户行为数据对于构建公司的损失函数非常重要。

从这些例子中可以看出，损失函数的推导在很多方面类似于贝叶斯分析中的先验提取。例如，通过一个参数来控制大大小小预测误差的相对成本，通过另一个参数来控制不对称程度。Elliott等人(2005)在构建EKT误差损失函数时采用了这种方法：

这里

，表示时的预测误差，参数控制对称程度，时完全对称。（Elliott令其等于1或2）控制了预测误差的成本是线性增加还是平方增加。EKT损失将常用的损失函数形式归为特殊情况：和产生MSE损失，而和导致平均绝对误差损失。

损失函数已经被证明能够相对直接地在金融预测时构建。通常假设单个投资者对最终财富具有平均方差或幂效用函数。只要能够建立从预测到投资组合权重的映射，损失函数就可以具体化。

例一（风险厌恶投资者的股票仓位选择）

最后要注意的是，即使预测者的损失函数很好理解，但在涉及多种结果和非线性影响的复杂决策中，预测也经常被用作涉及多种结果和非线性影响的复杂决策的输入，例如风险价值计算和银行的压力测试。在这种情况下，可能难以确定将预测与行动对应起来的确切决策规则。

四、利用经济理论来帮助预测

经济理论能在经济预测问题的许多步骤中发挥重要作用。在最原始的情况下，设置损失函数需要理解不同符号和大小的预测误差之间的基本权衡，因此前提是对预测问题所依据的经济学含义有明确的理解。公式(4)中的风险度量直接依赖于这种理解。经济理论还可以通过三种方式来限制（模型集）的大小。

第一，理论可以为选择哪些变量提供指导（模型选择）。经济理论可能会对包含哪些变量有所提示。特别是，均衡理论可能提示，决定家庭和企业一阶条件的因素应该影响经济动态。理论还可以帮助确定对经济增长影响最大的冲击的性质（例如，技术或偏好冲击或政府活动的冲击）。虽然对经济冲击来源的理解可能无助于产生点预测，但这种信息在产生概率预测和评估风险时可能是有用的。

第二，理论可能会对预测模型使用的函数形式（如线性与非线性）有所提示。经济理论也许不太可能提供关于在预测模型中使用哪种函数形式的具体预测。虽然经济理论经常假设线性或依赖线性化模型，但这更多的是一个可操作性的问题，而不是经济限制或假设的技术或偏好属性的直接结果。然而，对预测模型的系数进行单调性或符号约束可能被证明是有益的。例如，人们可能希望在股市回报预测模型中规定估值比率（如股利价格比率或账面市值比率）的系数为正值（见Campbell & Thompson 2008）。Pettenuzzo等人（2014）发展了一种贝叶斯方法，通过对股票的条件预期超额收益率的限制--必须是正值，以确保投资者愿意持有风险股票--或对单位风险的条件预期超额收益率的限制来约束对股市收益的预测，这种限制可以由经济中的“风险价格”来约束。经验上，他们发现对预测模型施加这样的限制会导致对美国股市回报率的预测得到改善。

第三，理论可以用来对预测模型的参数或矩进行约束（参数限制）。这种考虑往往会减少搜索中考虑的模型的空间。另外，如果采用结构模型来构建预测，模型本身也是经济理论的结果。结构性经济模型可直接用于构建预测或对预测进行限制。较大规模的结构性模型可用于各种目的。这方面的例子包括美联储使用的FRB/美国模型和穆迪分析公司的宏观经济模型。这类模型有能力进行反事实预测和预报。

动态随机一般均衡模型(DGSE)在央行和经济研究人员中特别受欢迎，他们希望为其预测模型提供更坚实的经济基础。这些模型包含了跨时间优化的家庭和企业决策，并将其与货币和财政政策决策规则以及关于技术冲击和货币财政政策的假设相结合。基于经济理论，DSGE模型确保了一套内部一致的模型预测的产生。此外，这些模型非常适合理解特定预测的经济原因，还可以用来分析经济政策变化对预测的影响。

但DSGE模型在表示经济动态时做出了简化的假设，这不可避免地会对预测结果产生不利影响。一些经济约束条件也更有可能在长期内成立，对预测短期动态可能没有帮助。事实上，一些实证研究发现，DSGE预测经常被调查预测甚至是更简单的时间序列模型打败。Del Negro & Schorfheide（2013）将此总结如下：“文献中的经验证据表明，DSGE模型预测可与标准自回归或向量自回归模型相媲美，但可能被更复杂的单变量或多变量时间序列模型所主导。”

五、大数据带来的机遇与挑战

大数据促进了许多经济学领域的新的分析路线，如应用微观经济学、高频金融以及对货币政策公告等新闻事件影响的研究。一个关键问题是，大数据会如何影响经济预测。大多数预测问题涉及两个维度，即时间序列维度(T)和截面维度(K)，前者指的是可用于估计的观测值数量(即样本长度)，后者通常指的是潜在预测因子的数量。

5.1 更大的T

从预测的角度来看，更大的T值为更精确的模型估计提供了希望，并提高了我们在竞争性预测模型之间进行选择的能力。然而，在实践中，有两个因素限制了大T在许多经济应用中的好处。首先，通常更大的样本意味着以更高的频率对数据进行采样。其次，较长的数据集往往意味着估计值是由远在过去的数据构建的，对今天的预测相关性较低。

获得更高频的观察数据（有时是秒级）使我们能够估计诸如股票价格、货币和利率等变量的高频变动模型，并促进了我们对金融市场高频变动的理解。我们注意到，市场微观结构效应和对单个资产流动性的限制意味着我们对抽样频率的推进也有限制。例如，对于许多资产来说，比每5分钟更频繁的抽样可能会在观察到的价格中引入更多的噪音，这从估计的角度来看是不可取的。不过，这种高频数据使我们能够计算单个资产和投资组合风险的实时（每日）估计和预测。

较为不明显的是，获得以日频率衡量的数据将有助于我们对通货膨胀或失业率等宏观经济总量作出更准确的预测。经济变量的大部分变化与经济周期有关，增加观察频率并不会增加我们观察到的周期数量，因此对我们制作更好的预测模型的能力影响有限。虽然这一点表明，高频数据对我们预测固定时间范围内（如提前一个月或一个季度）的宏观经济变量的能力有一定的局限性，但其他论点则使人更加乐观。首先，许多宏观经济变量(如国内生产总值)的测量有相当大的误差，并随着时间的推移而修正，因此，在流动和透明的市场中建立的金融变量有可能包含信息，以补充有关宏观经济变量中已经包含的信息。其次，金融变量具有前瞻性，因此，尽管也受宏观经济基本面预测以外的因素驱动，但可能包含有助于预测宏观经济基本面的信息。

获得大T的另一种方法是获得更长的时间序列数据。然而，模型不稳定的问题在更长的样本中变得更加明显。模型的不稳定性，或者说数据生成过程的异质性，会给我们对预测模型的选择带来问题。即使是对于轻度的非模型异质性，我们也没有得到一个表明方程(1)收敛于方程(4)的极限结果；相反，我们会得到(1)收敛于样本期的平均风险的结果。在异质性足够强的情况下，这可能是个问题。对于数据生成过程的极端情况，如数据生成过程的大的、离散的断裂，过去的数据对于构建有用的预测模型的作用有限，除非这些断裂过程能够被建模。

5.2 更大的K

更大K值（即更多的潜在预测因素）的大数据效应与我们在许多经济预测的实践中观察到的情况最为一致。更大的预测因子集既提供了机遇，也带来了挑战。一方面，一些新的预测因素有可能对结果具有真正的预测能力，在这种情况下，这些变量可能会被包含在预测模型中。另一方面，K值越大，预测因子集的维度越大，因此潜在的预测模型集的维度也越大，这使得确定最佳预测模型变得更加困难。

同时，人们已经开发了高效的算法来寻找重要的预测变量（见Tibshirani 1996）。这些算法被称为LASSO回归，可以处理的情况。最近的方法，如Zou & Hastie（2005）的弹性网，调整了惩罚的度量，也有关于如何选择惩罚系数的工作（见Belloni & Chernozhukov，2011）。Chudik等(2016b)讨论了惩罚函数的选择，并提出了一种新的方法，一次只用一个协变量进行多重检验，用于处理模型选择中涉及的多重检验问题。

在这些方法（动态因子模型与LASSO稀疏性回归）中，哪种方法的效果最好，或者说是否应该将它们视为替代方案，目前还没有定论。一种方法是简单地加入主成分，看看它们是否会被LASSO算法所包含。另一种策略是不将这些方法作为相互竞争的选择，而是尝试将各个预测结合起来。这就引出了模型组合的问题，这将在第6节中讨论。

预测一个可能高维度的自变量向量时会出现其他问题。标准的向量自回归（VAR）方法并不适用，但已经有贝叶斯方法来处理高维VAR。另一个可以用来确保单个预测之间一致性的有趣方法是Pesaran等人（2004）提出的全局VAR模型。这种方法已经在经验预测中得到了成功的应用（Chudik等人2016a）。利用允许截面相关的动态面板进行预测是另一种很有前景的方法，尽管这种方法目前还只是处于起步阶段。

六、模型选择与预测组合

如果数据生成过程是已知的，在大多数预测情况下，我们可以通过最大似然得到的有效估计，并利用这些估计构建一个预测模型。然而，在预测分析中被广泛接受的一个前提是，所有的预测模型都是误指的。这种模型的错误描述产生的原因有很多：(a) 所关心的结果和预测变量的基本(联合)DGP经常发生变化，因此很难通过时间准确跟踪；(b) 从预测因素到结果的映射的函数形式是未知的，难以确定；(c) 最佳预测因素的身份是未知的，需要进行复杂的搜索；(d) 预测模型的参数估计有误差。重要的是，模型的错误说明并不容易解决，因为随着新信息的到来，选择和估计预测模型问题的复杂性只能随着时间的推移而增加。

这些可能的问题表明，我们可能不会试图确定和使用单一的 "最佳 "预测模型。预测组合可用于纳入来自非常不同的预测模型的见解。基于DSGE的预测(在第4节中描述)、基于数据的机器学习方法和来自调查的预测代表了非常不同的建模方法和非常不同的信息来源。鉴于这些差异，将不同的方法结合起来似乎是个好主意。

实证表明，模型和预测组合已被证明是为数不多，能够改善大量经济和金融变量的预测性能的预测方法之一。由于我们有许多预测方法，其预测性能大致相似，在这种情况下，这些预测的 "组合 "提供了多样化的收益。除此之外，在几种预测模型的相对性能随时间变化的情况下，使用估计权重的组合方法可以使权重发生变化，赋予性能提高的模型更高权重。这种模型的不稳定性将在下文直接讨论。

七、解决模型的不稳定性

模型的不稳定性是指模型生成过程，

，随时间而变化的情况。这可能是由于密度变化或预测模型的参数随时间而变化，或两者兼有。经济构成的不断变化，新的产业取代旧的产业，以及法规的变化，意味着假设数据生成过程在很长一段时间内是不变的可能是不合理的。模型不稳定带来的明显问题是，从过去数据中对预测模型的估计不一定对今天的预测有用。虽然风险的样本类比如公式1仍可能收敛到平均风险（公式4），但当随时间变化时，后者的对象在的某一个值上可能没有解释。同样，在预测模型中，的估计值在整个数据样本中可能是平均良好的，但在我们进行预测的时间T上却不是。

模型的不稳定性似乎是普遍存在的。Stock和Watson(1996年)发现，大多数与一系列宏观经济变量相适应的时间序列预测模型都存在不稳定性。Clements & Hendry(1998)认为模型的不稳定性是影响宏观经济预测模型性能的关键因素。在这种模型不稳定的情况下，会出现一些实际问题。首先，我们能否发现这种模型不稳定的存在？其次，当数据生成过程存在时间变化时，应该如何构建预测？

当怀疑模型不稳定时（或者通过检验拒绝了模型稳定的原假设），建立预测模型有两种主要策略。首先，我们可以尝试对不稳定性进行参数化建模。参数方法的主要挑战来自于选择哪种不稳定性模型可能是正确的。预测方面的大多数工作都是在假设已经选择了正确的模型的情况下进行的，而不是解决如何选择正确的模型。其次，我们可以使用更稳健的程序来生成预测，放弃考虑不稳定的形式。

考虑不稳定性的参数化建模方法。这里的困难是，存在着一大批不稳定性的候选模型。例如，参数可能会在某个未知的时间点一次性改变数值，或者它们可能会在每个时期变化。在这些可能性之间，有一些模型的变化频率较低，但变化量较大（离散）。

事实证明，允许二阶矩的时间变化对经济和金融变量都很重要。一个流行的方法是假设一个随机波动过程，其形式为：

另外，也可以使用马尔科夫区制转换模型：

式(26)到(29)的方法是完全参数化的，因为它们假定了参数变化的完全指定过程（包括函数形式和分布）。这种方法考虑到这样一种观点，即如果断点在过去影响了数据生成过程，那么对未来结果的预测也应该考虑到断点的可能性，特别是在长预测范围内（相关讨论见Giacomini和Rossi，2009年；Giacomini和Rossi，2015年，关于模型不稳定性下的预测调查）。

在单次中断的情况下，一种方法是试图测试中断的存在和最可能的地点。然后，预测模型参数的估计可以只基于中断后的数据（中断后估计）。如果断裂的位置接近样本的末端，那么这种方法就不可能很好地发挥作用，因为只有很少的数据点可以用来训断点后的估计。另外，我们可以使用一种程序，试图通过纳入断裂前的数据来抵消偏差和方差效应，从而使预测的预期损失最小化（Pesaran & Timmermann，2007）。

当预计存在多个但罕见的断裂时，可以考虑尝试估计最近的断裂，并以最近的稳定期为基础进行预测。Bai & Perron(1998)提供了估计断裂点的方法。Pesaran & Timmermann (2002)提出了一种基于反转时间序列的改变方法。第三种可能性是使用多个估计窗口，并根据相关MSE值的倒数对各窗口进行平均，从而降低产生相对较差预测性能的估计方法的权重（见Pesaran & Timmermann 2007）。

不依赖估计断裂次数的稳健方法包括使用滚动窗口估计器、最小二乘法和截距校正。滚动窗口背后的想法是，“旧的”数据在估计中被排除，因此不会导致参数估计的偏差。滚动窗口估计往往比全样本（递归）估计更不稳定，后者在参数随时间变化不大的情况下能更有效地利用所有数据。滚动窗口估计还可能严重依赖于如何设置估计窗口的长度，而在实践中似乎没有解决这一重要问题的程序。

处理模型不稳定性的一种方法在实践中似乎很有效，就是考虑各种不同模型，然后使用不同方法预测的算术平均值。Clark & McCracken(2010)将产出、通货膨胀和短期利率的预测结合到不同的VAR形式中，以多种方式允许模型的不稳定性，发现这类预测的算术平均值一直很好。Rossi(2013)也发现等权预测组合能产生相对较好的样本外预测。

八、密度预测和点预测

密度预测提供了对预测不确定性的全面总结，在许多情况下是非常重要。因此，已经有公共机构已经转向提供密度预测。例如，英格兰银行报告了对通货膨胀的“扇形图”预测，国际货币基金组织在《World Economic Outlook》中也是如此。扇形图使用不同的颜色来说明从预测的中位数开始的分位数，并向外扩散，以覆盖越来越有可能出现的变量结果范围。

有人认为密度预测提供了比点预测更好的方法，因为这种预测不与特定的损失函数挂钩。然而，在实践中，必须利用数据来选择模型和估计参数，所有这些都涉及到增加一个损失函数，而这个损失函数可能与密度所使用的点预测问题没有关系。反过来，给定这样的损失函数和密度预测的估计值，我们就可以使用公式(2)来构建点预测。

密度预测有时不一定能使得人们从中作出点预测。对于二元结果，如许多天气预报，一个单一的数字定义了条件密度。当密度预报是一个参数密度时，可以呈现密度的参数。但更多的时候，密度的特征会被呈现出来。例如，英格兰银行对通货膨胀的密度预测是一个直方图，并报告了许多其他分布特征（平均值、中位数、模式、偏度）。显然，直方图抑制了可能对计算最佳预测有用的信息。

密度预测依赖于未知参数的估计，因此需要一个损失函数。这个损失函数可能与预测用户的损失函数无关。在有个有二元结果的预测问题中，密度预测是其中一个结果的条件概率，因此，用于估计预测密度的评分规则与用户的个人效用函数之间有直接的联系。Shuford等(1966)和Schervish(1989)表明，适当的评分规则是用户个体效用函数的加权平均。对于更一般的问题，文献中流行的评分规则与单个用户的基本损失函数之间的关系并不清楚。

九、评估和比较预测效果

9.1 样本外模型

等式(32)的原假设意味着，大模型中包含的额外回归因子的系数为零。如果这种情况成立，那么在给定的样本中，可以预期大模型的表现会比小模型差，这仅仅是因为大模型有更多的参数需要估计。小模型（模型1）通过正确地规定附加参数等于零来获得效率。换句话说，大模型比小模型受估计误差的不利影响更大。这意味着，小模型与大模型的相对预测性能的分布会向左移动。在有许多额外参数需要估计的情况下，这种影响可能强烈到检验统计量分布的95%右尾临界值为负。

Giacomini & White(2006)提出了一种不同的方法来比较相等的预期损失。他们将等式32中比较两个模型在参数概率极限下的预期损失的原假设替换为以当前参数估计值评估的同等预期损失的原假设。

他们检验的基础对象同样是两个模型的预测的观察序列。Giacomini & White假设这些预测是用滚动窗口估计器生成的。这种假设保留了估计误差对两种预测的影响，也使他们能够建立两种预测所产生的损失序列的分布。等式32和33中的无效假设之间的差异不能忽视。举个例子，假设小模型（模型1）中因遗漏相关预测变量而产生的有限样本偏差正好抵消了其较小的估计误差（相对于模型2）。那么方程33中的原假设不应该被拒绝，而方程32中的原假设应该随着估计样本的扩大和估计误差的消失而被拒绝，因为大模型所包含的额外预测变量实际上包含了有用的信息。换句话说，基于等式33的检验可能比基于等式32的检验对大型模型提出了更高的要求，因为前者要求大型模型以足够大的幅度优于小型预测模型，以弥补大型模型更大的估计误差。

等式33中的原假设比较了两个模型使用参数估计序列的预测性能。这意味着，如果保持相同的模型，但其参数的估计方式不同，则检验结果将发生变化。例如，如果使用100个观测值的滚动估计窗口，模型1可能优于模型2，而如果滚动估计窗口是500个观测值，则情况相反。这表明，与比较具体模型相比，等式33真正测试的是成对预测方法性能的等效性。事实上，等式33可以用来测试同一模型的相对精度，使用不同的方法或使用不同长度的滚动估计窗口（如200与500个观测值）进行估计。

比较不同模型的标准误是预测评估文献的一个重大改进，但目前仍然存在局限性。West(1996)和Clark & McCracken(2001)建立的结果仅限于一小部分估计和预测模型，并排除了各种非线性、非参数和贝叶斯方法，以及涉及模型选择的预测方法。同样，尽管Giacomini & White(2006)倡导的方法在概念上是优雅的，但在实践中，依赖滚动窗口估计器会导致统计能力的大幅下降。

9.2 样本内评估与样本外评估

样本内评估方法使用相同的数据样本来估计预测模型的参数并对其进行评价。与此相反，样本外评估模型将用于估计（和选择）模型的样本和用于评估它的样本分开。在一定程度上，选择何种方法取决于评估的用途。

在数据生成过程的标准假设下，样本内检验具有渐进最优性。然而，由于与数据挖掘有关的顾虑以及模仿实际使用的预测程序的愿望，我们通常需要样本外预测评估的结果。Hansen & Timmermann(2015a)考虑了一个模拟实验，结果表明，尽管在样本外检验中，由于数据挖掘而导致的无预测性检验可能过度拒绝原假设，但样本外的良好预测表现是虚假的可能性要小得多。这似乎说明样本外测试要比样本内测试的预测性能更好。

然而，Inoue和Kilian(2005)和Hansen & Timmermann(2015b)表明，样本外检验由于使用了预测评价的数据子集，以及参数递归估计导致的更大的估计误差，可能不那么具有说服力。对于递归扩展估计窗口的情况，Hansen和Timmermann(2015b)推导了两个嵌套回归模型的比较，并表明当数据的“hold-out”部分(即用于预测评价的数据比例)在样本量中的比例较大时，样本外检验正确检测出大模型是“最佳”的能力会变弱。他们的结果还表明，当样本较短时，预测性能优越的结论更有可能是虚假的。

除了能保证对数据挖掘有更强的稳健性外，检查模型的样本外预测性能的另一个好处是，可以让我们了解模型的预测性能是如何随时间演变的。通过绘制预测误差的累计平方和，或对成对的模型进行比较，人们可以了解不同时期的模型稳定性。

十、处理数据挖掘问题

我们还可能对找出多少模型能够击败基准以及识别这些模型感兴趣。Romano & Wolf(2005)开发了一个分步程序，在White's bootstrap上迭代，以递归地识别优势模型集，同时控制至少一个预测模型被错误分类为优势模型的概率。在没有明显基准的情况下，Hansen等人(2011)开发了递归删除表现不佳模型的方法。这种方法可以处理大维度的竞争预测模型集，在考虑放弃哪些模型时是有用的。

十一、总结

在过去几十年里，经济预测领域出现了许多令人振奋的新发展，这些发展与模型选择、实时预测和对大量潜在相关预测因素进行估计等领域的新发展有关。其中一些发展是理论性的，另一些发展则主要是由新的经验数据和计算机算法所驱动的，这些数据和算法的设计是为了在大量的变量列表中进行搜索，希望能够识别出在稀疏性假设下可能产生差异的个别预测因素。

本文的回顾说明，没有一个单一的模型或预测方法可以在不同的经济变量中长期占据主导地位。个别模型总是对一个复杂得多、不断变化的现实的粗略近似，其偏差会随着时间的推移而变化。这有助于解释存在大量不同的预测方法，也解释了预测组合在许多不同领域的成功。同时，如何提升实时预测的能力仍然值得研究。高频数据源的增加，如来自超市的扫描数据、信用卡交易和工厂一级的活动，为提高这种预测的准确性提供了希望，同时也带来了新的挑战。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿！

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿！

您可能也对以下帖子感兴趣