这样做大数据分析和预测,很危险!|学术光华


这样做大数据分析和预测,很危险!|学术光华
油价涨,股指涨?
股指涨,房地产市场指数上升?
降雨量多,通货膨胀率高?
........
注意了!这些“结论”即便来自大数据分析和预测,它们有可能也是错误的。
数据时代,从政府治理、企业运营到个人投资,我们的预测和决策越来越倚重大数据分析。统计学,则是数据分析的“灵魂”。如果分析路径错误,那么有可能造成重大决策失误。以上“结论”可能错误的原因在于,他们忽略了数据分析中的“虚假回归”现象,往往得出错误的相关性推断。
北京大学光华管理学院商务统计与经济计量系副教授涂云东在“虚假回归”领域进行了深入研究。由涂云东教授与其指导的博士毕业生王莹(现任中国人民大学副教授)共同撰写的论文论文提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。这一方法的提出,对于大数据分析和预测能力的提升,有着重要意义。
此前,涂云东教授对于“虚假回归”的相关研究已经发表在
01数据不平稳,相关性不靠谱在经济学研究中,一个重要的课题就是检验两个时间序列数据是否具有如下的“相关关系”(通俗地说自变量x的变化导致因变量y的变化):对于平稳的时间序列数据,检验上述线性相关关系的方法是先基于模型(1)得到系数β的最小二乘估计,然后基于标准正态分布分位数做传统的t检验。然而,许多经济数据常常是非平稳的,即不同时刻的数据并不具有相同的概率分布(均值或者方差随时间变化)。典型的“非平稳数据”包括:有增长趋势的收入和消费、带有泡沫的金融数据等等。
有趣的是,如果对两个独立的非平稳时间序列和按照上述步骤进行检验,常常会得到两个序列是相关的结论,这便是虚假回归现象。也就是说,它们之间统计意义上的相关性,让人错误地认为两者之间有关联,但事实上并非如此。在经济学界,诺贝尔经济学奖得主Granger和其合作者Newbold于1974年在计量经济学顶级期刊发表文章指出了该现象的存在。他们通过对两个独立的单位根过程(系数为1的一阶自回归序列,是非平稳的过程)的数值模拟发现,回归系数相应的t统计量非常大,拟合优度也比较大,Durbin-Watson统计量则接近于0(这意味着残差可能是单位根过程)。该现象长期困扰着经济学家。
直到1986年,著名计量经济学家Peter Phillips在文章证明了对于两个独立的单位根过程,基于模型(1)的t统计量会随着样本量增加而发散,从而在理论上解释了Granger和Newbold数值模拟的结果。同时Phillips还证明了,对t统计量以一定的发散速率标准化,可以收敛到某个非标准的分布,这说明,Granger and Newbold (1974)所发现的虚假回归现象的本质是基于错误的极限理论实施了假设检验。虚假回归现象广泛出现在实证分析中,例如英国的累计降雨量与通货膨胀率之间的关系,股票收益与天气之间的关系等。更多的实证研究中的虚假回归现象,可以参考涂云东教授与其合作者2019年发表的研究及其引用的文献。
02利用平衡模型的稳健推断,“打击”虚假回归然而,在实际应用中,Phillips的理论在研究经济数据间的相关关系上仍有很大的局限性。首先,Phillips 1986年提出的标准化后的t检验,其极限分布是非标准的,需要通过数值模拟得到检验需要的拒绝域,应用起来非常麻烦;其次,该虚假回归的理论局限于当与为互相独立的部分单位根过程时,涂云东教授等通过数值模拟发现,基于模型(1)所作的t检验会过度拒绝原假设,即虚假回归出现。当在进一步的研究中,涂云东教授等通过数值模拟展示了当下面的热图截取自涂云东教授2020发表的论文。
图中横纵坐标
上图反映了传统的t检验在标准正态分布0.05分位数下的拒绝频率。图片中灰色代表了拒绝频率大于0.5,因此,该检验倾向于拒绝首先利用Johansen协整检验作为预检验,再采用传统的t检验,研究者们得到了下面的热图:
从上图可知,Johansen协整检验的拒绝频率对于PMDUR不同的局部参数因此,当需要指出的是,类似于Phillips 1986年提出的标准化t检验的方法对基于上述原因,涂云东教授与合作者们巧妙地提出使用基于平衡回归模型的统计推断方法来解决虚假回归问题。平衡回归方法最早见于Hamilton(1994),作为解决单位根过程虚假回归的一种简单方法。其思路是在回归模型(1)的等式右侧分别加入自变量和因变量的滞后项,当为了研究平衡模型解决虚假回归问题的能力,涂云东教授等首先通过模拟展示了对于部分单位根模型,不同推断方法得到的t统计量在标准正态分布0.05分位数下的拒绝频率。
这里TAR,LSTAR,ESTAR分别代表不同种类的部分单位根生成过程,M1代表了基于模型(1)得到的t统计量,M2的推断方法基于Zhang (2013),M3为基于平衡模型得到的t统计量。可以看出,只有基于平衡模型的推断对于部分单位根生成过程具有稳健性。因此,揭示了平衡回归在解决部分单位根过程虚假回归问题中的可行性和稳健性。接着,对于PMDUR,涂云东教授等从理论上证明了基于平衡回归模型得到的t统计量收敛到标准正态分布,这说明基于平衡模型所建立的统计推断方法的独特魅力:它不仅具有稳健性,而且在实际应用中简单易行,只需要计算经典的t统计量并利用标准正态分位数即可实现虚假回归的甄别。综上所述,当在实证分析上,涂云东教授等对从1995年5月到2006年3月的标普500股票价格指数(S&P500)以及季节调整后的房地产市场指数(HMI)的月度数据的相关性进行分析。如下图所示:
两个时间序列之间似乎具有共同的随机趋势(co-movement),看上去存在相关关系。传统的Johansen检验以及基于模型(1)的t检验都倾向接受相关关系的存在。然而,当使用基于平衡回归模型的推断方法来检验S&P500和HMI之间的相关性时,却会得出两者不相关的结论,这说明S&P500和HMI之间很可能存在虚假回归。涂云东教授等用相同的方法研究了2003年到2008年的美国石油价格和股票市场指数(NASDQ)之间的关系:
文章发现,类似于Phillips 1986年的结果,当此外,研究中常需要检验回归模型的结构是否会随着时间而发生变化,即为此,涂云东教授及其合作者提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。其基本原理便是在回归模型(2)加入自变量涂云东教授及其合作者创新性地提出了一种对基于半参平衡模型的推断方法突破了大多数检验方法只能在在数值模拟中,当结果显示,基于模型(2)的上述三个检验都会错误拒绝原假设,即虚假回归现象出现。然而基于半参平衡回归模型得到的上述三个检验统计量却可以正确接受原假设,从而支持理论分析的结果。
参考文献
[1] Chen, Y., Tu, Y., 2019. Is stock price correlated with oil price? Spurious regressions with moderately explosive process. Oxf. Bull. Econ. Stat. 81 (5), 1012-1044
[2] Granger, C., 1991. Some recent generalisations of cointegration and the analysis of longrun relationships. In: Engle, R., Granger, C. (Eds.), Long-Run Economic Relationships. Oxford University Press, pp. 277–287.
[3] Granger, C.W.J., Newbold, P., 1974. Spurious regressions in econometrics. J. Econometrics 2 (2), 111–120.
[4] Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, Princeton, N.J.
[5] Lin, Y., Tu, Y., 2019. Robust inference for spurious regressions and cointegrations involving processes moderately deviated from unit root. J. Econometrics 219 (1), 52-65
[6] Phillips, P.C.B., 1986. Understanding spurious regressions in econometrics. J. Econometrics 33 (3), 311-340.
[7] Sun, Y., Cai, Z., Li, Q., 2016. A consistent nonparametric test on semiparametric smooth coefficient models with integrated time series. Econometric Theory 32 (4), 988–1022.
[8] Tu, Y., 2017. On spurious regressions with partial unit root process. Econom. Lett. 150, 142-145
[9] Tu, Y., Wang, Y., 2019. Functional coefficient cointegration models subject to time–varying volatility with an application to the purchasing power parity. Oxf. Bull. Econ. Stat. 8 (6), 1401–1423.
[10] Tu, Y., Wang, Y., 2021. Spurious functional-coefficient regression models and robust inference with marginal integration. J. Econometrics, forthcoming. DOI: https://doi.org/10.1016/j.jeconom.2020.12.010
[11] Xiao, Z., 2009. Functional-coefficient cointegration models. J. Econometrics 152 (2), 81–92.
[12] Zhang, L., 2013. Partial unit root and linear spurious regression: A Monte Carlo simulation study. Econom. Lett. 118, 189–191.
涂云东,北京大学光华管理学院商务统计与经济计量系和北京大学统计科学中心联席副教授,研究员。入选北大光华“日出东方”青年人才,教育部“长江学者奖励计划”青年长江学者,两次获评北京大学优秀博士学位论文指导教师。2012年获美国加州大学河滨分校经济学博士学位,同年6月加入北大光华。亚太青年计量经济学者会议(YEAP)发起人和组织者。30余篇学术论文发表在
(本文转载自北京大学光华管理学院 ,如有侵权请电话联系13810995524)
* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。
备考交流
最新动态
推荐项目
活动日历
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 05/06 活动报名 | 经济学教授x帆船奥运冠军x独角兽企业联创,聊聊个体与组织的双向奔赴
- 05/07 活动预告 | 节后活动不停歇,5月7日招生直通车开启预约,CLGO毕业校友、知名跨国消费电子企业学长经验分享即将到来!
- 05/08 颠覆性创新时代,一切『再设计』| 复旦-BI MBA《设计思维》公开课报名
- 05/10 全球经济格局变化与中国的应对策略 | 复旦MPAcc公开课报名
- 05/10 重磅抢位!中欧MBA年度健康产业论坛2025:医疗创新为本,领航易变时代
- 05/10 报名|就读一年开启创业之路!交大TFMBA学长与你相约招生开放日
- 05/10 长江商学院MBA公开课|大厂专题:多元竞争,突破增长瓶颈 @北京
- 05/10 【招生沙龙报名】把握AI时代机遇,复旦MBA助你职场进化
- 05/11 活动报名 | 5月11日深圳招生直通车启程,招生政策新动向、在校生活Q&A一站式解答!
- 05/16 长江商学院MBA公开课 | 从优势到胜势:企业多元化发展的核心引擎打造方法论
热门资讯
MBA院校号
暂无数据