楼主: 能者818
1714 31

[量化金融] 美国实际房价指数预测 [推广有奖]

11
可人4 在职认证  发表于 2022-6-1 03:30:02
根据Guo和Tse(2013)提出的最大相对论(maximized relativeRMSE)准则,选择分解过程中添加的高斯噪声的振幅。图2描述了应用于美国实际年度房价的分解示例。有关插图,请参见Dua和Ray(1995)。有关该方法的更多详细信息,请参见Wu和Huang(2009)图2:将原始(1strow)实际年度美国房价分解为6个系列。最后一行(直线)是EEMD过程的剩余部分。在分解过程中,每个IMF的频率随着其指数的增加而下降。Wu et al(2007)提出,每个IMF代表时间序列的不同动态,波动性较大的IMF描述了该现象的短期动态,波动性较小的IMF描述了该现象的长期趋势。Moghtaderi等人(2013年)在此框架基础上提出了一种基于分解的趋势提取技术。他们认为,应将长期趋势作为总和而非独立的IMF进行检查,因为各个IMF之间分散着个体特征,并且并非仅在一个IMF中孤立。换句话说,他们认为长期趋势是1)低频IMF和2)EEMD分解的最终残差的总和。扩展了Moghtaderi等人(2013)的观点,我们认为所有IMF都可以进行评估,以构建初始时间序列的短期动态表示和长期趋势函数。前者是更多挥发性IMF总和的结果,而后者可以按照Moghtaderi等人(2013)描述的程序获得。因此,分离问题可以分解为选择最合适的IMF指数,该指数定义了短期和长期动态之间的界限。

12
kedemingshi 在职认证  发表于 2022-6-1 03:30:05
使用数学符号,上述平滑函数表示为: 哪里是索引初始序列的平滑变量, R IMF总数,R最终EEMD残差,以及我们开始求和的IMF指数。例如,在图3中,将实际房价序列分解为5个IMF和最终残差。通过将第3、4和5条厚度与最终残差相加,我们得到了图3红色曲线的平滑函数。图3:美国实际房价及其EEMD平滑序列。2.4支持向量回归(SVR)支持向量回归是Vladimir Vapnik(1992)提出的经典支持向量机算法的直接扩展,起源于统计学习领域。尽管该方法能够提供具有高泛化能力的准确预测,但它尚未引起人们对经济学和金融时间序列信息的浓厚兴趣。在为数不多的实证应用中,Rubio et al(2011)基于SVR模型预测电力负荷,而Papadimitriouet al(即将推出)开发了用于电能市场定向价格预测的SVM模型。H"ardle et al(2009)评估了公司的违约风险,SVMand"agüt et al(2012)扩展了银行业的违约风险预测。Khandaniet al(2010)使用SVR模型进行私人信贷风险评估,Papadimitriou et al(即将出版)使用SVR模型进行衰退预测。最后,Gogas等人(2013)在机器学习框架下比较了简单总和和除数货币总量,以预测美国GDP。其基本思想是找到一个线性函数,该函数最多与数据集的实际值存在预定偏差。

13
能者818 在职认证  发表于 2022-6-1 03:30:08
换句话说,我们不关心每个预测的误差,只要它不违反预定义的阈值,但我们会惩罚任何高于阈值的偏差。界定这个“容错带”的集合是支持向量(SV)。这是通过最小化程序定位的。与其他机器学习技术相比,SVR的主要优点之一是,它通常会产生凸最小化问题,避免局部极小(Vapnik,1992)。该模型分为两个步骤:培训和测试步骤。在训练步骤中,数据集的最大部分用于估计函数(即检测定义“容错带”的支持向量);在测试步骤中,通过检查模型在训练期间留下的小子集中的性能来评估模型的泛化能力。使用数学符号并从训练数据集开始 ,  其中,对于每个观测对,观察样品和是因变量(回归系统的目标),线性回归函数的形式为  .  SVR方法试图达到两个相互矛盾的目标:a)找到一个最接近给定数据集的解决方案(即大部分数据点应在公差“带”内,而少数点将超出范围)和b)找到一个推广到基础人群的解决方案。

14
能者818 在职认证  发表于 2022-6-1 03:30:11
这可以通过解决以下问题来实现:   从属于     其中ε定义了回归周围的公差带,以及, 是否通过惩罚参数C控制松弛变量(见图4)。公差带内的所有点 问题(5)是一个具有线性约束的凸二次优化问题,具有唯一解。objectivefunction的第一部分通过施加较小的可能性来控制回归的泛化能力.  这不是一个明显的陈述,对SVR最小化过程的详细分析不在本文的范围内,但我们可以暗示,较小的是,  回归函数越接近平行于x轴。从几何学上,我们可以看到,与x轴平行的直线使公差带的覆盖面积最大化,这意味着最大的泛化能力。目标函数的第二部分控制对训练数据点的回归近似值(通过增加C,我们用更大的权重惩罚公差带外的任何点 或). SVR概念中的关键元素是找到目标函数中两部分之间的平衡,由ε和C参数控制,如图4所示。图4:用字母ε表示的误差容限上限和下限。容错带的边界由用黑色填充点表示的支持向量(SV)定义。

15
何人来此 在职认证  发表于 2022-6-1 03:30:14
大于ε的预测值根据其与公差接受带的距离得到惩罚ζ。解决方案如下:  和  线性回归很少能正确描述现实生活中的现象;对于这种过于简单的近似来说,它们太复杂了。处理真实现象数据集的另一种方法是将它们投影到一个更高维的空间中,在这个空间中,转换后的数据集可以用线性函数来描述。“内核技巧”遵循投影思想,同时确保最小的计算成本:数据集被映射到内积空间,在内积空间中,通过特殊的“内核”函数仅使用原始空间中的点积进行投影,而不是明确计算每个数据点的映射。非线性核函数将SVR机制演化为非线性回归模型。在我们的模拟中,我们采用了四种核:线性核、径向基函数(RBF)、S形核和多项式核。

16
mingdashike22 在职认证  发表于 2022-6-1 03:30:16
每个核的数学表示为:线性(8) 径向基函数(9) 多项式 (10) 乙状结肠 (11) 因子d、r、γ表示核参数。2.5弹性网弹性网是Zou和Hastie(2005)提出的一种变量选择方法,它线性地结合了LASSO(Timmerman,1996)和岭回归技术。根据LASSO,在解决回归问题时,我们试图最小化实际值与预测值的平方差,同时施加限制,即只有绝对值大于阈值的系数才是可接受的。值低于阈值的系数被设置为零,因此被丢弃。通过这种方式,LASSO方法试图最小化回归模型的预测误差,同时修剪回归系数。岭回归与拉索方法的不同之处在于,它不是对每个系数的绝对值设置阈值,而是评估其平方值,并丢弃平方值低于阈值的所有系数。弹性网将上述方法结合在一个更灵活的框架中。Zou和Hastie(2005)提出了一个从零到单位波动的正则化参数,而不是对每个系数使用固定形式(绝对值或平方值)。当选择0时,弹性网络恢复为LASSO模型,而当正则化参数设置为1时,我们得到岭回归表示。换句话说,套索和岭回归只是弹性网络模型的特例。

17
kedemingshi 在职认证  发表于 2022-6-1 03:30:19
总的来说,上述方法是灵活的,适用于数据特征,并且可以选择导致精确回归模型的回归器。3数据集与之前的研究相比,我们使用了从1890年到2012年的更长的年度观测样本,样本量为1890-1988年,样本量为1989-2012年。一个很短的样本可能只描述整个现象的阶段性趋势,而更长的时间可以观察这些模型在较长时间内的预测性能以及房价趋势的变化。决定从1989年开始使用抽样调查,是为了涵盖住房市场活动急剧增加的时期(Rapach和Strauss,2007;2009)。我们的数据集由十个美国年度。

18
kedemingshi 在职认证  发表于 2022-6-1 03:30:22
1890年至2012年期间的宏观经济变量根据文献进行选择:  实际人均GDP(RGDPPC)(Agnello和Schuknecht,2011;Case和Shiller,1990)  长期利率(LTR)和短期利率(STR)(McGibany和Nourzad,2004;Mikhed和Zemcik,2009 Agnello和Schuknecht,2011)  人口(POP)(Agnello和Schuknecht,2011;Mikhed和Zemcik,2009;Case和Shiller,1990;Case和Mayer,1996)  实际股价(RSP)(Abelson等人,2005;Mikhed和Zemcík,2009;Rapach和Strauss,2009)  实际施工成本(RCONSTR)(Case和Shiller,1990;Jud和Winkler,2002;Mikhed和Zemcik,2009;Zeno和Füss,2010)  失业率(UNEMPL)(Case和Mayer,1996;Abelson等人,2005;Rapach和Strauss,2007)  通货膨胀率(INFL)(Stevenson,2000;Abelson等人,2005;Rapach和Strauss,2007)  实际石油价格(ROILP)(Padilla,2005;Beltratti和Morana,2010)  作为财政政策指标的预算赤字/盈余比率(FISPOL)(Afonsoand Sousa,2011年,2012年;Agnello和Schuknecht,2011年;Agnello和Sousa,即将发布)该数据集包括1890年至2012年期间的11个美国年度宏观经济变量。这包括实际房价(RHP)、财政政策变量(FISPOL)、实际人均GDP(RGDPPC)、失业率(UNEMPL)、长期利率(LTR)、短期利率(STR)、通货膨胀率(INFL)、人口(POP)、实际建筑成本(RCONSTR)、实际股价(RSP)和实际油价(ROILP)。所有变量均来自Robert J。

19
大多数88 在职认证  发表于 2022-6-1 03:30:25
Shiller网页,不包括实际GDP、人口、失业和用于计算财政政策变量的部分预算盈余/赤字数据,这些数据来自全球金融数据(GFD)库。对于预算盈余/赤字,我们从GFD获得1890年至2006年的数据,而2007年至2012年的数据从圣路易斯联邦储备银行获得。我们使用预算盈余/赤字占GDP的比率作为衡量财政政策的指标。通货膨胀率计算为消费者价格指数的年增长率。实际油价是通过用CPI平减名义上的西德克萨斯中质原油而获得的。图5描述了实际房价,灰色区域表示国家经济研究局报告的衰退期。在2006年至2009年期间,历史上最高的价格水平之后,实际房价出现了前所未有的大幅下跌。图5:席勒住房价格指数(1890=100)衡量的美国年度实际住房价格。根据国家经济研究局(NBER)的报告,灰色区域表示美国经济的衰退期。3、实证结果为了检验所选模型的泛化能力,我们将数据集分为两部分进行样本内和样本外预测。选择的比率为80/20。预测精度由平均绝对百分比误差(MAPE)和方向对称性(DS)测量:   (13) 在哪里和分别代表预测值和实际值 是样本外观察的总数。MAPE测量预测中的绝对百分比误差,而DS测量定向预测的准确性。

20
大多数88 在职认证  发表于 2022-6-1 03:30:28
方向性预测是房地产市场参与者和政策主管部门的主要兴趣所在,因为正如所讨论的那样,房价的未来方向可能是商业周期当前和未来阶段的指标。为了测试所提出的EEMD-EN-SVR方法对实际房价指数的预测能力,我们将其与几种备选的5070901101301501701902101890189418989811902190619101914191819221926193419381942194619501954195819621966197019741978198219861990199419982002200620010Schiller指数预测模型进行了比较。除了EEMD-EN-SVR之外,我们还开发了一个随机游走(RW)和一个简单的自回归版本,没有任何额外的解释变量labeledEEMD AR SVR;仅将房价指数的平滑部分和波动部分的过去值用作输入变量。根据最小样本MAPE选择EMD AR SVR和EEMD-EN-SVR模型的最佳滞后结构。对于EEMD-AR-SVR模型,我们为波动分量选择了两个滞后,为平滑分量选择了六个滞后。按照第2节中描述的BVAR模型的收缩方案,我们引入了所有预测值的滞后值,并让EN从中选择信息量最大的预测值。换句话说,在BVAR框架中,EN可以选择变量的第二个滞后,但排除第一个滞后,这与经典VAR模型相反。EN为平滑部分选择一个输入变量,为平滑部分选择36个输入变量。此外,我们还开发了自回归条和BVAR模型,这些模型已在房价预测文献中广泛使用。BVAR模型收缩过程的一个关键优势是,它们适应数据特征,排除了相关变量,并侧重于预测方面信息更丰富的变量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:36