这样做大数据分析和预测,很危险!|学术光华

北京大学光华管理学院
2022-02-11 17:30 浏览量: 2804
 智能总结

这样做大数据分析和预测,很危险!|学术光华

油价涨,股指涨?

股指涨,房地产市场指数上升?

降雨量多,通货膨胀率高?

........

注意了!这些“结论”即便来自大数据分析和预测,它们有可能也是错误的。

数据时代,从政府治理、企业运营到个人投资,我们的预测和决策越来越倚重大数据分析。统计学,则是数据分析的“灵魂”。如果分析路径错误,那么有可能造成重大决策失误。以上“结论”可能错误的原因在于,他们忽略了数据分析中的“虚假回归”现象,往往得出错误的相关性推断。

北京大学光华管理学院商务统计与经济计量系副教授涂云东在“虚假回归”领域进行了深入研究。由涂云东教授与其指导的博士毕业生王莹(现任中国人民大学副教授)共同撰写的论文论文提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。这一方法的提出,对于大数据分析和预测能力的提升,有着重要意义。

此前,涂云东教授对于“虚假回归”的相关研究已经发表在

01数据不平稳,相关性不靠谱在经济学研究中,一个重要的课题就是检验两个时间序列数据是否具有如下的“相关关系”(通俗地说自变量x的变化导致因变量y的变化):对于平稳的时间序列数据,检验上述线性相关关系的方法是先基于模型(1)得到系数β的最小二乘估计,然后基于标准正态分布分位数做传统的t检验。然而,许多经济数据常常是非平稳的,即不同时刻的数据并不具有相同的概率分布(均值或者方差随时间变化)。典型的“非平稳数据”包括:有增长趋势的收入和消费、带有泡沫的金融数据等等。

有趣的是,如果对两个独立的非平稳时间序列和按照上述步骤进行检验,常常会得到两个序列是相关的结论,这便是虚假回归现象。也就是说,它们之间统计意义上的相关性,让人错误地认为两者之间有关联,但事实上并非如此。在经济学界,诺贝尔经济学奖得主Granger和其合作者Newbold于1974年在计量经济学顶级期刊发表文章指出了该现象的存在。他们通过对两个独立的单位根过程(系数为1的一阶自回归序列,是非平稳的过程)的数值模拟发现,回归系数相应的t统计量非常大,拟合优度也比较大,Durbin-Watson统计量则接近于0(这意味着残差可能是单位根过程)。该现象长期困扰着经济学家。

直到1986年,著名计量经济学家Peter Phillips在文章证明了对于两个独立的单位根过程,基于模型(1)的t统计量会随着样本量增加而发散,从而在理论上解释了Granger和Newbold数值模拟的结果。同时Phillips还证明了,对t统计量以一定的发散速率标准化,可以收敛到某个非标准的分布,这说明,Granger and Newbold (1974)所发现的虚假回归现象的本质是基于错误的极限理论实施了假设检验。虚假回归现象广泛出现在实证分析中,例如英国的累计降雨量与通货膨胀率之间的关系,股票收益与天气之间的关系等。更多的实证研究中的虚假回归现象,可以参考涂云东教授与其合作者2019年发表的研究及其引用的文献。

02利用平衡模型的稳健推断,“打击”虚假回归然而,在实际应用中,Phillips的理论在研究经济数据间的相关关系上仍有很大的局限性。首先,Phillips 1986年提出的标准化后的t检验,其极限分布是非标准的,需要通过数值模拟得到检验需要的拒绝域,应用起来非常麻烦;其次,该虚假回归的理论局限于当与为互相独立的部分单位根过程时,涂云东教授等通过数值模拟发现,基于模型(1)所作的t检验会过度拒绝原假设,即虚假回归出现。当在进一步的研究中,涂云东教授等通过数值模拟展示了当下面的热图截取自涂云东教授2020发表的论文。

图中横纵坐标

上图反映了传统的t检验在标准正态分布0.05分位数下的拒绝频率。图片中灰色代表了拒绝频率大于0.5,因此,该检验倾向于拒绝首先利用Johansen协整检验作为预检验,再采用传统的t检验,研究者们得到了下面的热图:

从上图可知,Johansen协整检验的拒绝频率对于PMDUR不同的局部参数因此,当需要指出的是,类似于Phillips 1986年提出的标准化t检验的方法对基于上述原因,涂云东教授与合作者们巧妙地提出使用基于平衡回归模型的统计推断方法来解决虚假回归问题。平衡回归方法最早见于Hamilton(1994),作为解决单位根过程虚假回归的一种简单方法。其思路是在回归模型(1)的等式右侧分别加入自变量和因变量的滞后项,当为了研究平衡模型解决虚假回归问题的能力,涂云东教授等首先通过模拟展示了对于部分单位根模型,不同推断方法得到的t统计量在标准正态分布0.05分位数下的拒绝频率。

这里TAR,LSTAR,ESTAR分别代表不同种类的部分单位根生成过程,M1代表了基于模型(1)得到的t统计量,M2的推断方法基于Zhang (2013),M3为基于平衡模型得到的t统计量。可以看出,只有基于平衡模型的推断对于部分单位根生成过程具有稳健性。因此,揭示了平衡回归在解决部分单位根过程虚假回归问题中的可行性和稳健性。接着,对于PMDUR,涂云东教授等从理论上证明了基于平衡回归模型得到的t统计量收敛到标准正态分布,这说明基于平衡模型所建立的统计推断方法的独特魅力:它不仅具有稳健性,而且在实际应用中简单易行,只需要计算经典的t统计量并利用标准正态分位数即可实现虚假回归的甄别。综上所述,当在实证分析上,涂云东教授等对从1995年5月到2006年3月的标普500股票价格指数(S&P500)以及季节调整后的房地产市场指数(HMI)的月度数据的相关性进行分析。如下图所示:

两个时间序列之间似乎具有共同的随机趋势(co-movement),看上去存在相关关系。传统的Johansen检验以及基于模型(1)的t检验都倾向接受相关关系的存在。然而,当使用基于平衡回归模型的推断方法来检验S&P500和HMI之间的相关性时,却会得出两者不相关的结论,这说明S&P500和HMI之间很可能存在虚假回归。涂云东教授等用相同的方法研究了2003年到2008年的美国石油价格和股票市场指数(NASDQ)之间的关系:

上图显示了两个时间序列数据在2003年到2008年之间具有共同的随机趋势。以往的研究认为自新世纪开始,股票市场指数和石油价格存在着严重的泡沫,这意味着使用PMDUR过程去刻画这两组数据比较合适,而这可能会导致虚假回归现象的出现。结果显示,基于模型(1)的推断倾向于认为两个序列间具有正相关关系,而基于平衡模型的推断则认为是不相关的,因此有理由相信,NASDQ指数和石油价格之间应该存在着虚假回归现象,即两者不具有相关关系。03变系数模型的虚假回归与半参平衡模型方法的应用许多实证分析显示在经济数据的建模中仅使用线性协整关系是不够的(Granger, 1991)。因此,近些年来越来越多的文献开始关注针对宏观经济和金融数据的非线性非平稳特性的建模。其中Xiao (2009)考虑了如下变系数协整模型:变系数协整模型可以视为传统的线性协整模型的拓展,与是由变量驱动的光滑函数,此时协整关系可以随着时间根据协变量光滑地改变。变系数协整模型可以有效刻画协整关系的不稳定性与随机性,同时避免非参估计中的“维度诅咒”问题。关于模型(2)的其他相关理论研究和实证分析,可以参考涂云东教授2019年发表的论文。然而,现有的关于变系数协整模型的文章以及提出的各种检验方法大多都是在为此,涂云东教授和合作者在2021年发表的文章中研究了基于变系数协整模型(2)的统计推断出现的虚假回归现象。

文章发现,类似于Phillips 1986年的结果,当此外,研究中常需要检验回归模型的结构是否会随着时间而发生变化,即为此,涂云东教授及其合作者提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。其基本原理便是在回归模型(2)加入自变量涂云东教授及其合作者创新性地提出了一种对基于半参平衡模型的推断方法突破了大多数检验方法只能在在数值模拟中,当结果显示,基于模型(2)的上述三个检验都会错误拒绝原假设,即虚假回归现象出现。然而基于半参平衡回归模型得到的上述三个检验统计量却可以正确接受原假设,从而支持理论分析的结果。

参考文献

[1] Chen, Y., Tu, Y., 2019. Is stock price correlated with oil price? Spurious regressions with moderately explosive process. Oxf. Bull. Econ. Stat. 81 (5), 1012-1044

[2] Granger, C., 1991. Some recent generalisations of cointegration and the analysis of longrun relationships. In: Engle, R., Granger, C. (Eds.), Long-Run Economic Relationships. Oxford University Press, pp. 277–287.

[3] Granger, C.W.J., Newbold, P., 1974. Spurious regressions in econometrics. J. Econometrics 2 (2), 111–120.

[4] Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, Princeton, N.J.

[5] Lin, Y., Tu, Y., 2019. Robust inference for spurious regressions and cointegrations involving processes moderately deviated from unit root. J. Econometrics 219 (1), 52-65

[6] Phillips, P.C.B., 1986. Understanding spurious regressions in econometrics. J. Econometrics 33 (3), 311-340.

[7] Sun, Y., Cai, Z., Li, Q., 2016. A consistent nonparametric test on semiparametric smooth coefficient models with integrated time series. Econometric Theory 32 (4), 988–1022.

[8] Tu, Y., 2017. On spurious regressions with partial unit root process. Econom. Lett. 150, 142-145

[9] Tu, Y., Wang, Y., 2019. Functional coefficient cointegration models subject to time–varying volatility with an application to the purchasing power parity. Oxf. Bull. Econ. Stat. 8 (6), 1401–1423.

[10] Tu, Y., Wang, Y., 2021. Spurious functional-coefficient regression models and robust inference with marginal integration. J. Econometrics, forthcoming. DOI: https://doi.org/10.1016/j.jeconom.2020.12.010

[11] Xiao, Z., 2009. Functional-coefficient cointegration models. J. Econometrics 152 (2), 81–92.

[12] Zhang, L., 2013. Partial unit root and linear spurious regression: A Monte Carlo simulation study. Econom. Lett. 118, 189–191.

涂云东,北京大学光华管理学院商务统计与经济计量系和北京大学统计科学中心联席副教授,研究员。入选北大光华“日出东方”青年人才,教育部“长江学者奖励计划”青年长江学者,两次获评北京大学优秀博士学位论文指导教师。2012年获美国加州大学河滨分校经济学博士学位,同年6月加入北大光华。亚太青年计量经济学者会议(YEAP)发起人和组织者。30余篇学术论文发表在

编辑:葛格

(本文转载自北京大学光华管理学院 ,如有侵权请电话联系13810995524)

* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。

收藏
订阅

备考交流

免费领取价值5000元MBA备考学习包(含近8年真题) 购买管理类联考MBA/MPAcc/MEM/MPA大纲配套新教材

扫码关注我们

  • 获取报考资讯
  • 了解院校活动
  • 学习备考干货
  • 研究上岸攻略

最新动态

      暂无数据