楼主: nandehutu2022
1297 35

[量化金融] 股市预测中多种复杂数据的聚合:一个 [推广有奖]

21
可人4 在职认证  发表于 2022-6-10 03:03:20
n=100、200、500、1000、2000、5000、10000。为了衡量估计过程的性能,我们引入了积分平方误差的平均值(MISE)和真β(t)和^β(t)asMISE(^β)=Z(^β(t)的相关性- β(t)dt,cor(β(t),β(t))=PTi=1(β(t)i- β(t))(^β(t)i-β(t)q(PTi=1(β(t)i- β(t))q(PTi=1(^β(t)i-^β(t)),其中t=100是[0,1]上等距网格的数量。表1和表2显示了200次模拟的平均值dmise(^β(t))和cor(^β(t),β(t))的结果。从表1中,我们可以看到,估计的参数确实与真实参数高度相关。MISE还显示了估算程序在聚合水平上的无偏属性。当样本量变大时,两者的标准差均减小。至于^γ、^α,其平均偏差和标准偏差如表1所示:估计功能系数^β(t)和真实功能系数β(t)及其标准偏差(括号内)的相关性。样本量100 200 500 1000 2000 5000 10000σ=0.2 0.943(0.049)0.958(0.03)0.962(0.019)0.964(0.012)0.967(0.009)0.967(0.006)0.967(0.004)σ=0.4 0.94(0.05)0.952(0.03)0.964(0.017)0.965(0.012)0.966(0.008)0.967(0.005)0.967(0.004)σ=0.6 0.937(0.048)0.951(0.032)0.962(0.018)0.966(0.013)0.965(0.009)0.966(0.005)0.967(0.004)表2:M ISE(^β):功能系数及其标准的MISE偏差(括号内)。样本量100 200 500 1000 2000 5000 10000σ=0.2 0.263(0.206)0.16(0.109)0.122(0.058)0.109(0.035)0.099(0.026)0.098(0.016)0.097(0.012)σ=0.4 0.263(0.193)0.172(0.097)0.117(0.052)0.108(0.036)0.104(0.026)0.1(0.017)0.101(0.011)σ=σ0.6 0.287(0.486)0.173(0.111)0.126(0.053)0.112(0.039)0.112(0.028)0.108(0.017)0.106(0.012)表3和表4,它们都显示出很小的偏差。

22
能者818 在职认证  发表于 2022-6-10 03:03:23
看看偏差的估计方差,我们可以看到,当我们增加样本量时,偏差确实会减少。综上所述,上述模拟研究提供了无偏且一致的估计结果,这证明了拟议框架的有效性。5、中国股市的实证研究考虑到该框架在聚合复杂数据方面的低成本和评估一致性,它可以用于股票预测等实际应用。由于中国股市的基本面在整个样本期内发生变化,我们将整个周期分为三个阶段,如图1所示。我们使用第一天的交易量、情绪和日内回报作为预测因素,而在第一天+1时开放回报的状态(如果回报为正,则yi=1,否则yi=0)作为反应。在这种情况下,该框架可作为指数公开收益的预测方法。这里,当转换函数数据时,方程式(10)中的λ设置为99%,以确定基数,从而保留日内收益序列可能提供的大部分信息。

23
可人4 在职认证  发表于 2022-6-10 03:03:26
此外,请注意,与支持向量机等机器学习方法不同,logisticTable 3的优点是:标量预测系数γ及其标准偏差的偏差(括号内)。样本量100 200 500 1000 2000 5000 10000σ=0.2 0.083(0.39)0.041(0.271)-0.005(0.154)-0.024(0.113)-0.036(0.069)-0.041(0.048)-0.035(0.029)σ = 0.4 0.074(0.391)-0.016(0.263)-0.036(0.149)-0.031(0.103)-0.043(0.075)-0.047(0.046)-0.057(0.035)σ = 0.6 0.004(0.413)-0.005(0.265)-0.058(0.153)-0.072(0.102)-0.076(0.066)-0.085(0.048)-0.085(0.031)表4:成分系数α的偏差及其标准偏差(括号内)。样本量100 200 500 1000 2000 5000 10000σ=0.2^α0.001(0.1)(0.056)-0.001(0.034)0.003(0.024)0.001(0.017)0.002(0.011)0.001(0.008)^α(0.105)-0.002(0.073)0.002(0.043)-0.006(0.028)-0.003(0.021)-0.005(0.013)-0.005(0.009)^α-0.001(0.072)0.002(0.044)-0.001(0.028)0.003(0.019)0.002(0.014)0.003(0.008)0.004(0.006)σ = 0.4 ^α-0.003(0.091)-0.006(0.06)0.003(0.034)0.004(0.022)0.001(0.017)0.002(0.011)0.002(0.007)^α0.011(0.113)0.007(0.074)-0.004(0.044)-0.01(0.03)-0.006(0.022)-0.008(0.012)-0.009(0.009)^α-0.008(0.07)-0.001(0.047)0.001(0.031)0.006(0.021)0.005(0.015)0.006(0.009)0.006(0.006)σ = 0.6 ^α0.013(0.1)0.005(0.055)0.006(0.035)0.003(0.026)0.003(0.016)0.004(0.011)0.004(0.007)^α-0.014(0.111)-0.012(0.069)-0.017(0.039)-0.013(0.031)-0.012(0.021)-0.014(0.013)-0.013(0.009)α0.001(0.072)0.007(0.051)0.011(0.028)0.01(0.019)0.009(0.013)0.01(0.009)0.009(0.006)回归是指它可以访问变量的系数,而不是只关注预测功率。由于对拟议框架的解释和预测能力都很感兴趣,我们将在以下小节中逐一介绍它们。5.1. 预测我们分别对三个阶段进行5倍交叉验证。

24
mingdashike22 在职认证  发表于 2022-6-10 03:03:29
交叉验证是一种广泛使用的方法,用于估计预测模型在实践中的准确度。在5倍交叉验证中,原始样本随机分成5个等分子样本。在5个子样本中,留下一个子样本作为模型测试的验证数据,剩下的4个子样本作为训练数据。然后,交叉验证过程重复5次,5个子样本中的每一个子样本在验证前都使用一次。对褶皱的5个结果进行平均,以得出一个单一的精度估计值。这种方法的优点是,所有观测值都用于培训和验证,并且每个观测值只用于验证一次。在基准测试场景中,我们使用零作为分界点,将每日未平仓收益率转换为二进制响应,如数据部分所述。也就是说,如果开放返回为正,yi=1,否则yi=0。准确度定义为使用0.5作为预测概率π的切点正确分类的观测率。预测精度如表5所示。表5的最后两行显示了对比实验的结果,其中原始数据(功能数据、成分数据、标量数据)被视为标量预测值,并输入分类模型。可以看出,使用原始数据的预测精度确实低于我们提出的框架下的预测精度。事实上,将函数数据和成分数据视为标量预测因子,并将其直接应用于统计分析,这是统计理论无法支持的,因为它们属于不同的空间。使用所提出的框架,三个阶段的精度分别为0.65、0.65和0.56。

25
何人来此 在职认证  发表于 2022-6-10 03:03:32
logistic回归的替代品是支持向量机(SVM),表5的第二行显示了SVM提供的预测精度。可以看出,在拟议的框架下,SVM分类器(使用线性核)的性能没有超过Logistic回归。这一结果与之前的研究(Perlich et al.,2003)一致,其中对学习曲线的分析表明,逻辑回归在小数据集上表现良好。由于良好的预测精度和回归系数解释的便利性,以下讨论集中于logistic回归产生的结果。前两个阶段的准确率高于之前的研究(Zhou等人,2017b),其中logistic回归也仅基于情绪数据,准确率为58.1%,而第三个阶段的准确率没有超过之前的研究。表5:预测精度。分类模型第1阶段第2阶段第3阶段在提议的框架下,逻辑回归0.65 0.65 0.56SVM 0.65 0.59 0.50使用原始数据逻辑回归0.54 0.44 0.46SVM 0.50 0.57 0.47原因可能是在第3阶段,市场持续低迷,从我们拥有的变量中提取的信息较少。然而,结果表明,基于多种类型的复杂数据,该框架具有良好的预测能力。乍一看表5,拟议框架的预测精度似乎并不令人兴奋。这很可能是因为,在目前的建模中,我们使用零作为每日未平仓收益率的分界点,这一点过于敏感,无法捕捉市场起伏之间的显著差异。为了降低灵敏度,我们进一步提出了一种基于阈值的采样方法。

26
kedemingshi 在职认证  发表于 2022-6-10 03:03:35
将τ定义为每日未平仓收益的分界点,其中τ∈ [0, 0.1]. 对于任何给定的τ,我们选择每日未平仓收益率高于τ或低于τ的观测值-τ,然后对预测框架进行5倍交叉验证。图4说明了τ与精度之间的关系。图中还显示了最大精度,以及相应的样本大小n和阈值τ。可以看出,精度对阈值τ敏感。这里的权衡是,τ成功地忽略了小绝对值的回报,同时减少了观测数量,使得预测精度不稳定。因此,τ和精确度之间的关系不是单调的。尽管如此,图4显示,通过提前选择市场的重大涨跌,并确定观察数量,可以提高准确性,尤其是在市场经历大起大落的第一阶段和第二阶段。从这个角度来看,当市场剧烈波动时,该框架有望取得更好的表现。此外,图4给出了拟议框架预测能力的综合评估。0.000 0.002 0.004 0.006 0.008 0.0100.50.60.70.80.91.05倍精度n=34时,最大精度为0.91,=0.0067相10.000 0.005 0.010 0.015 0.0200.50.60.70.80.91.05倍精度n=29时,最大精度为0.83,=0.0119相20.000 0.002 0.004 0.006 0.450.500.550.600.650.705倍精度最大累计值为0.69,n=24,=0.0075阶段3图4:切割点τ与5倍精度之间的关系。当τ=0时,三相的精确度为0.65、0.65和0.56,如表5.5.2所示。

27
能者818 在职认证  发表于 2022-6-10 03:03:39
系数解释对于三个不同的样本期,我们应用所提出的方法,获得组合预测因子(投资者情绪)、功能预测因子(日内5分钟收益率序列)和标量预测因子(成交量)的估计系数。组合预测因子和标量预测因子的估计效率如表6所示。正如可以看到的那样,在牛市(第一阶段)中,最重要的情绪是“悲伤”。虽然在看涨的市场中,主导情绪是“喜悦”(如图2所示),但“悲伤”是对开盘回报影响最大的情绪。在第二阶段,“厌恶”是五种情感中最具影响力的一种。这表明,在熊市开始时,人们对市场的厌恶绝对优先于市场趋势。然而,在第三阶段,市场在萧条中持续震荡,“愤怒”对未来的开盘回报非常重要,而其他类型的情绪也在同时发挥作用。值得注意的是,“恐惧”在第三阶段而不是第二阶段变得非常重要,这意味着这不是熊市开始时的恐惧,而是最初冲击后的恐惧将冲击市场趋势。表6:情绪和音量系数。第1阶段第2阶段第3阶段Anger 0.01 0.00 0.49厌恶0.04 0.98 0.10欢乐0.29 0.00 0.12悲伤0.66 0.00 0.13恐惧0.00 0.02 0.16容积-0.84-0.79-0.24表6还表明容积系数始终为负值。事实上,高水平的成交量意味着市场参与者对市场预期持有不同意见,即一些人认为是时候卖了,而另一些人认为是时候买了。

28
何人来此 在职认证  发表于 2022-6-10 03:03:42
因此,负系数意味着昨天发生的成交量增加一个单位(或者说,投资者意见分歧增加一个单位)将导致股指开盘时实现正回报的可能性降低一些单位。从牛市到熊市的绝对影响正在减少。功能预测因子的估计系数如图5所示。功能系数可以解释为昨天特定时间的回报影响,即当日开盘回报率为正的概率。它说明了股票价格的日内效应(Harris,1986;Chang等人,2008;Foster和Viswanathan,1993)如何影响中国股市繁荣和萧条期间的市场趋势。具体而言,图5说明了这一影响在三个阶段的不同特征。在牛市中(第1阶段),影响增加到顶部,然后下降到ZeroTime05010050200(t)阶段1time20020406080(t)阶段209:35:0009:40:0009:45:0009:50:0009:55:0010:00:0010:05:0010:10:0010:15:0010:20:0010:25:0010:30:0010:35:0010:40:0010:45:0010:50:0010:55:0011:00:0011:05:0011:15:0011:20:0011:30:0013:00:0013:20:0013:25:0013:30:0013:35:0013:40:0013:45:0013:50:0013:55:0014:00:0014:05:0014:10:0014:15:0014:20:0014:25:0014:30:0014:35:0014:40:0014:45:0014:50:0014:55:0015:00:00time20020406080100(t)阶段3图5:三个阶段的功能系数。x轴是一天中的时间,频率为5分钟,从上午9:35到上午11:30,从下午13:00到下午15:00。曲线显示了前一天的日内收益率对今天开盘收益率的影响程度。在早上关门之前。

29
大多数88 在职认证  发表于 2022-6-10 03:03:45
下午,影响在开始时降至零以下,在收盘前上升。在最初的市场震荡(第2阶段)期间,日内收益对下一天开放收益率为正的概率的影响在当天开始时减小。与第一阶段不同,影响在上午和下午的前半个小时保持积极。下午下跌至负值,然后再次逆转至正值,并在收盘前波动至较高水平。投资者对市场的持续关注可能会在一整天产生持续的积极影响,而日内回报又会影响到次日的开盘回报。与第1阶段和第2阶段相比,第3阶段的总体影响最小,因为早上大部分时间功能系数都在零左右。这可能源于市场的低迷状态在第二天可能不会产生什么影响。下午14:00左右达到最低点,与第二阶段相似。这正是投资者所说的“神奇14:00”和“神奇14:30”,令市场参与者感到震惊,因为2015年中国股市崩盘期间,暴跌总是发生在下午14:00至14:30左右。我们的结果进一步证实,这些特殊时刻对接下来的几天有着高度的负面影响。本节中的讨论展示了所提出的框架集成多种类型复杂数据的能力,并解释了变量如何用于响应。结论在本文中,我们提出了一个聚合三种数据形式的框架,即尺度变量、成分变量和函数变量,用于预测股市。虽然该框架与模型无关,但我们在本研究中主要考察了logistic回归。

30
大多数88 在职认证  发表于 2022-6-10 03:03:48
根据等距对数比变换、函数主成分和logistic回归,我们开发了该框架在聚合复杂数据时的估计过程。数值模拟实验表明,我们提出的框架是有效的。在对中国股市的实证研究中,使用社交媒体的交易量(标量数据)、日内收益率序列(功能数据)和投资者情绪(成分数据)来预测下一天开盘时市场是上涨还是下跌。通过将样本期划分为3个阶段,我们发现交易量和日内收益率序列的估计系数可以揭示不同的市场状况。最令人惊讶的是,我们发现,在看涨的市场中,“悲伤”对未来市场趋势比“喜悦”更重要。在最初的崩溃(第二阶段)“厌恶”起着主导作用。当市场变得萧条时,“愤怒”和“恐惧”开始发挥作用。有趣的是,我们的结果表明,熊市并不是在熊市的开始阶段,而是在随后的阶段,投资者的“恐惧”开始反映市场趋势。此外,我们提出的方法具有很强的预测能力,尤其是在前两个阶段。虽然我们提出的框架在我们的研究中表现良好,但它具有不可避免的局限性。例如,当我们独立处理观测时,时间序列之间的相关性被忽略了。此外,对于市场低迷的第三阶段,准确度还不够高。未来的工作可以考虑开发一个面板数据框架来解决第一个限制,并在框架中添加其他信息变量来解决第二个限制。7、确认本研究得到了国家自然科学基金(批准号71420107025)的资助。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:45