BSTS贝叶斯结构时间序列模型(Bayesian Structural Time Series)
一、引言——“胖”回归下变量选择+即时预测
人们判断影响变量都是通过自己的主观看法,但是主观看法下,就会出现"fat regression"问题(变量极多,但是观测值不够),下面BSTS方法就是针对这一问题提出使用的。
当预测变量比观测变量还要多的时候,当在短期时间序列预测过程中,我们的方法是结合三种贝叶斯方法:卡尔曼滤波法、spike-and-slab回归、模型平均。
Choi and Varian展示了如何应用搜索引擎的数据进行宏观经济指标的预测,这种即时预测的方式,非常得中央银行的喜欢,并进行了很多相关研究。Arola and Galan [2012], McLaren and Shanbhoge [2011], Hellerstein and Middeldorp [2012],Suhoy [2009], Carri`ere-Swallow and Labb′e [2011]. Choi and Varian [2012] 就进行了相关的研究。
二、变量选择问题
Castle et al. [2009, 2010] 描绘了21中变量选择的技术,时间序列的预测重要归类为四种方法:显著性检验(向前、向后逐步回归法);信息准则(AIC BIC);主成分因子分析模型;lasso 岭回归和其他惩罚性模型。
三、BSTS模型的子模型族
1、BSTS是一个模型集合体,BSTS结合了三种统计方法进一个集体系统中(两个部分:趋势部分+回归部分)。
a、用基础的状态空间结构模型做趋势和季节拟合(模型的趋势部分),卡尔曼滤波用来估计先验p的分布;
b、用spike-slab 回归做变量选择(模型的回归部分);
c、用贝叶斯模型平均法(Bayesian model averaging)做预测;
d、估计方法,用MCMC模拟后验分布生成的样本集,来进行估计。
很多下述学者应用了卡尔曼滤波法对时间序列数据进行预测,空间状态结构模型将时间序列进行划分,成水平项,常规趋势,季节效应和误差项。这个模型是一个泛随机化的模型,这个模型加入了季节效应的作为一个回归组成。
卡尔曼滤波法是很好的估计状态空间模型的方法,他能够计算p(x/x)预测分布滤波与平滑是常见的空间状态模型的计算步骤
George and McCulloch[1997]) and Madigan and Raftery [1994].论文研究了spike-slab对于变量的选择。
spike-and-slab在回归估计之前的变量稀疏问题,这个系统从庞大的模型集中寻找有贡献的模型,我们用他来进行即期预测,但这一方法可以用在很多短期预测
5、模型的估计
Scott and Varian【2012】,用MCMC技术通过后验分布来生成模拟样本这些技术生成了参数后验分布的样本集,这些样本集可以作为预测用。
四、结果分析
1、后验包含分布
等式8强加给系数为0的变量一个正向概率(与概率密度不同)(给系数施加一个密度约束条件的方程),因此这个等式是全后验分布的一个共同特征,并不是简单的模型中的值。
这个的全概率无法计算,但是边缘包含概率可以被蒙特卡罗模拟的样本估计出来。
2、initial claims data模型后验分布
在最初数据中对状态的贡献。图4.5是每一个时点潜在状态的动态后验分布
图4代表联合状态,代表没有数据噪声下序列的平稳值。
图5代表,每一个组成部分地贡献(脉冲图类似)。图5是一个最初变量被趋势、季节和回归部分所解释的多少。趋势部分两次触底,但是季节和回归部分,展示了更显著的变化。
黑色实线是状态均值,1%的中值置信是浅颜色的,一直到99%置信,颜色逐渐变淡。
可以看到前期预测的效果不是很好,波动幅度很大,所以造成前期预测误差。后期预测误差趋于稳定,直到很小。
增量显示图,季节,趋势,某两个个体的趋势图下面还有误差的图。
消费者信心使用趋势预测数据的分解,MAE是平均绝对误差,这个与随机森林变量选择中的(重要性评分)原理相同,越大越好。
(需要Code的,加我好友,私信我,帖子下面的回复不太能够看到...)