楼主: nandehutu2022
1301 35

[量化金融] 股市预测中多种复杂数据的聚合:一个 [推广有奖]

11
能者818 在职认证  发表于 2022-6-10 03:02:49
第3.1.2节介绍了处理功能数据的相关技术。由于我们的样本中有345个交易日,研究中包括345条日内收益曲线,每个交易日一条,表示为xi(t),i=1。。。,n、 xi(t)是第5.2.3节中的功能预测因子。标量预测:volumeVolume是股票分析中的一个重要指标,因为它用于衡量市场波动的相对价值(Foster和Viswanathan,1993;Lillo等人,2003)。将上海证券交易所第一天的交易量表示为zi,i=1。。。,我们在第5节中使用它作为scalarpredictor。第2.1节、第2.2节和第2.3节中介绍的数据可从汤森路透的Tick History下载。2.4. 成分预测因子:市场情绪最近的研究发现,社交媒体情绪与股票回报之间的关系是时变的(Ho等人,2017年),一些研究成功地将投资者从社交媒体中的情绪纳入股票价格预测中(Zhou等人,2017b;Sun等人,2017年;Ruan等人,2018年;Li等人,2014年)。在本文中,我们使用Zhou等人(2017b)的情绪测量。基于来自新浪微博的350多万条带有情感标签的推文作为语料库和快速朴素贝叶斯分类(赵等人,2012),他们将每日与股票相关的推文分为五类,即“愤怒”、“厌恶”、“喜悦”、“悲伤”和“恐惧”。通过将每种情绪按每天推特的总数进行缩放,我们分别获得了每日情绪比率,以代表投资者对市场的情绪比率。数据自然构成,每个观察(一个交易日)有五个部分,五个部分加起来等于1,表示为ci=[ci1,ci2,ci3,ci4,ci5],i=1。。。,n、 图2说明了样本期内的每日市场情绪比率。

12
nandehutu2022 在职认证  发表于 2022-6-10 03:02:52
在五种市场情绪中,“恐惧”和“喜悦”一直是两种主导情绪。具体而言,在第一阶段,“喜悦”是市场情绪的最大部分,“恐惧”是第二部分。然而,在第二阶段,这两种情绪会转换位置,“恐惧”成为最大的情绪。在第三阶段,“喜悦”和“恐惧”交替支配着市场情绪。此外,“恐惧”开始增加,而“厌恶”在熊市(第二阶段和第三阶段)中略有减少。然而,“恐惧”和“喜悦”在组合中的主导作用并不意味着它们必然是市场趋势的最具指示性的指标。第5节将详细讨论这个问题。2014-12-022014-12-082014-12-122014-12-182014-12-242014-12-302015-01-072015-01-132015-01-192015-01-232015-01-292015-02-042015-02-102015-02-162015-02-272015-03-052015-03-112015-03-172015-03-232015-03-272015-04-022015-04-092015-04-152015-04-212015-04-272015-05-042015-05-082015-05-142015-05-202015-05-262015-06-012015-06-052015-06-112015-06-172015-06-242015-06-302015-07-062015-07-102015-07-162015-07-222015-07-282015-08-032015-08-072015-08-132015-08-192015-08-252015-08-312015-09-082015-09-142015-09-182015-09-242015-09-302015-10-132015-10-192015-10-232015-10-292015-11-042015-11-102015-11-162015-11-202015-11-262015-12-022015-12-082015-12-142015-12-182015-12-242015-12-302016-01-062016-01-122016-01-182016-01-222016-01-282016-02-032016-02-162016-02-222016-02-262016-03-032016-03-092016-03-152016-03-212016-03-252016-03-312016-04-072016-04-132016-04-192016-04-25日期0.00.20.40.60.81.0情绪比率2014/12/2至2015/6/18 2015/6/19至2015/10/14 2015/10/15至2016/4/29 Joyangerdiscussadnessfear图2:新浪微博的市场情绪(周等人,2017b)。如图1.3所示,样本周期分为三个阶段,由不同的背景说明。

13
kedemingshi 在职认证  发表于 2022-6-10 03:02:55
方法学在本节中,我们首先介绍如何使用转换技术处理成分数据和功能数据。在此基础上,提出了一个与模型无关的股票市场预测框架。最后,我们使用logistic回归模型作为框架的一个案例,并给出了相应的估计过程。3.1. 预备工作3.1.1。成分数据成分数据的一个观察值通常用D部分simplexSD表示{ci=[ci1,…,ciD]∈ RD | DXj=1cij=1,0<cij<1,j} 。(2) 由于成分数据的自然约束,对成分数据采用标准线性回归分析通常会导致不良性质(Aitchison,1986;PawlowskyGlahn等人,2015)。一般的解决方案是首先消除约束,然后对转换后的数据进行分类统计分析,以获得估计的系数。最后一步是将估计系数转换回原始单纯形空间。在这种情况下,关键问题是如何在构建模型之前通过一些转换技术去除组合数据的约束。许多人都致力于研究这种方法。例如,加法对数变换(Aitchison,1986)、中心对数比变换(Aitchison,1986)和等轴测对数比(ilr)变换(Egozcue et al.,2003)。假设ilr变换是SDA和RD之间的等距-1、本文用它来处理成分数据。对于任何ci=[ci1,ci2,··,ciD]∈ SD,ilr转换映射cito c*i=ilr(ci)=(c*i1,c*i2,···,c*i、 D-1) ∈ 研发部-1年*我=lnci1DqQDj=1cij,lnci2DqQDj=1cij,···,LNCIDQQDJ=1cijψ,(3),其中ψ是a(D- 1,D)矩阵ψij=+q(D-i) (D)-i+1),j≤ D- 我,-qD公司-身份证件-i+1,j=D- i+1,0,否则,(4)如Egozcue et al。

14
能者818 在职认证  发表于 2022-6-10 03:02:58
(2003)提议。3.1.2. 功能数据近年来,FDA发展迅速(Ramsay和Silverman,1997、2007;Ferraty和Vieu,2006;Horv\'ath和Kokoszka,2012)。对于函数线性回归,对于连续标量响应变量和感兴趣个体的函数预测(Ramsay和Silverman,1997),通常使用非数据驱动基(如B样条)和数据驱动基(如函数主成分)。特别是,Hall等人(2007)考虑了基于函数主成分的函数线性回归模型的最小二乘估计,并获得了斜率函数的最优收敛速度。Meng et al.(2016)指出,功能主成分基础可能是首选,尤其是因为我们对功能数据类型没有任何先验知识。因此,我们考虑基于函数主成分基展开来处理函数变量。用K(s,t)=cov[X(s),X(t)]=E[X(s)X(t)]定义X(t)的协方差函数,然后根据Mercer定理,我们可以得到谱分解K(s,t)=∞Xj=1θjφj(s)φj(t),(5),其中θ≥ θ≥ ··· ≥ 0是与K(s,t)相关的算子的特征值,{φj}是相应的特征函数。根据Karhunen-Loeve表示,我们在{φj}空间中有X(t)∞j=1asX(t)=∞Xj=1ajφj(t)。(6) 假设我们有独立分布的(i.i.d.)观测值X(t)=(X(t),····,xn(t)),其中n表示样本量。回想一下,假设X(t)为bezero均值,经验协方差函数为^K(s,t)=nnXi=1xi(s)xi(t),(7),可用于估计K(s,t)。与方程(5)相同,我们可以得到^K(s,t)=∞Xj=1^θj^φj(s)φj(t),(8)其中^θ≥^θ≥ ··· ≥ 通常假设y^φj(t)φj(t)dt>0以消除符号的不确定性。

15
能者818 在职认证  发表于 2022-6-10 03:03:01
考虑到{φ}是X(t)所跨越空间的基础,我们可以看到,大多数neigenvalue都是严格正的。然后我们得到x(t)≈MXj=1ajφj(t),(9),其中M是基函数的数目,M通常由M=arg min1确定≤m级≤n{mXi=1^θi/(nXi=1^θi)≥ λ} ,(10),其中λ通常设置为85%(Wang等人,2016)。从方程(9)中,由正交基{φ}的集合跨越的泛函子空间Lis到M维实空间,因此(a,a,…,aM)可用于表示X(t)。3.2. 聚合多种类型复杂数据的框架基于上述内容,我们提出了一个使用混合类型复杂数据进行股票预测的框架,如图3所示。嵌入在社交媒体中的大量情感信息可以转换为不同类型情感的比例,并作为合成数据集成到框架中。日内回报可以看作曲线,并作为功能数据传递给框架。其他属性(如每日交易量)是标量数据。利用等轴测对数比变换、函数主成分基展开对原始复杂数据进行重构,为进一步的统计分析提供等价的数值变换数据。然后,利用转换后的数据对logistic回归分类器进行训练,从而建立预测模型。请注意,基于转换的数据,任何模型,无论是回归模型还是机器学习模型,都可以进行训练以执行预测。也就是说,我们的框架是独立于模型的,提供了一个聚合多种类型复杂数据的接口。

16
可人4 在职认证  发表于 2022-6-10 03:03:04
该预测模型可用于预测新获得的数据,并给出市场涨跌的意见。值得注意的是,转换过程本质上是空间转换,即组合数据从单纯形到实空间,函数数据从希尔伯特空间到实空间。等距对数比变换充分保留了原始成分数据的信息,而基于功能主成分基展开的基函数展开吸收了功能数据中信息量最大的元素。因此,转换后的数据在整体上很好地代表了原始数据。此外,假设一个数据集有N个样本,每个功能数据样本有p个观察点,每个组成数据样本有D个部分。然后,基于函数主分析的基函数展开的时间复杂性为isO(Np),因为需要计算方程(7)中的协方差函数(Meng等人,2016),虽然ilr转换的时间复杂性是O(ND),因为它转换输入组成数据输入功能数据输入数字数据市场情绪:从不同频率的社交媒体价格曲线中挖掘文本属性,如音量,etc.ilr transformationBasis函数扩展转换数据数据转换股票预测模型训练分类器(独立于模型)模型构建……31415,…,92651图3:使用混合类型复杂数据的股票预测框架。使用D×(D)矩阵逐个采样成分数据- 1) 尺寸如等式(4)所示。考虑到在大数据时代,在现实世界的应用中,通常p<100,D<10,这些转换的成本相当小。

17
kedemingshi 在职认证  发表于 2022-6-10 03:03:07
从这个角度来看,该框架提供了一个简单但有效的解决方案,用于处理金融领域中聚合的大型复杂数据。更重要的是,该框架是独立于模型的。它提供了一个聚合多种类型复杂数据的界面。基于转换后的数据,可以对任何类型的预测模型进行相应的训练。在模型构建阶段,除了logistic回归外,其他分类方法都是不错的选择,但我们在剩下的讨论中选择了logistic回归。原因是,逻辑回归不仅在类是二分法的情况下特别有用,而且还提供了预测系数,这使我们能够收集隐藏在模型中的直觉。3.3. 多类型复杂数据的Logistic回归和估计在本节中,我们考虑一个具有三种预测因子的Logistic回归模型,包括标量数据、函数数据和成分数据。值得注意的是,对于像支持向量机这样的分类器,成分和功能数据通过方程(3)和(9)以其转换形式输入到模型中。然而,由于Logistic回归模型涉及系数估计,因此需要系数和变量的内积。因此,我们将在本节的其余部分介绍详细信息。为方便起见,假设所有变量均为零均值。利用组分变量和函数变量的内积表达式,我们的模型是y=h(γZ+hα,CiS+ZX(t)β(t)dt+), (11) 其中Z∈ R是标量变量,C∈ Sd是D部分的组成变量,X(t)∈ Lis一个零均值二阶随机过程,Y∈ {0,1}是二进制响应。h·,·i是组成变量的对应内积运算符。γ ∈ R、 α∈ SDandβ(t)∈ 估计的Lare系数和 是一个随机错误项。

18
nandehutu2022 在职认证  发表于 2022-6-10 03:03:10
由于logistic回归考虑了特征的联合效应,并将特征的良好线性组合作为决策边界,因此本文将h(u)=exp(u)1+exp(u)作为连接函数。注意,一旦给出Z,γ的尺寸就固定了,而α和β(t)在不同的变换方法下可能会变化。在下面的小节中,我们将逐一处理组成数据和函数数据,尝试将它们转换为标量数据,以便进行常规统计技术。在本节的最后,我们给出了使用转换数据的最大似然估计过程。此后,将样本i表示为(yi,zi,ci,xi(t)),i=1,2。。。,n、 根据第3.1.1节,通过ilr变换,α,ci的内积∈ S转换为Hα,ciiS=D-1Xj=1α*jc公司*ij,(12)其中α=[α,α,…,αD]∈ SD,α*= ilr(α)=(α*, α*, ..., α*D-1) ∈ 研发部-1、将C(·)表示为合成的闭包,以重新缩放初始向量,使其分量之和为1,即C(u)=[uPDi=1ui,uPDi=1ui,…,uDPDi=1ui]。α*∈ 研发部-1应转换回α∈ 由ilr提供-1转换α=ilr-1(α*) = C(exp(α*Ψ)). (13) 根据第3.1.2节,我们在{φj}空间中有X(t)和β(t)∞j=1,即β(t)=P∞j=1bjφj(t),类似于方程式(6)。然后,考虑φj(t)的正交性,模型(11)中的第三项可以重写为zx(t)β(t)dt=∞Xj=1ajbj。(14) 同样,我们假设X(t)=(X(t),····,xn(t))是具有零均值的独立同分布(i.i.d.)观测值。通过合并方程(8),得到了展开基组,与方程(9)类似,我们得到β(t)=MXj=1bjφj(t),(15),其中M是基函数的个数,由方程(10)确定。因此,ZX(t)β(t)dt≈MXj=1ajbj。

19
大多数88 在职认证  发表于 2022-6-10 03:03:13
(16) 因此,模型(11)可以容易地重写≈ h(γZ+D-1Xj=1α*jc公司*j+MXj=1ajbj+), (17) 其中待估计参数包括γ、α*, b、 对于任何样本i,设b=(b,···,bM),ai=(ai1,···,aiM),yi≈ h(γzi+c*iα*+aib公司+i) 。链接函数设置为h(u)=exp(u)1+exp(u)。对于任何u∈ R、 Y的期望值为πi=P(Y=1 | zi,ci,xi(t))=exp(γzi+c*iα*+ aib+i) 1+exp(γzi+c*iα*+ aib+i) ,i=1。。。,n、 (18)可能性为L=Qni=1πyii(1-πi)1-我们可以通过最大对数似然(γ,α)得到估计量*,^b)=arg maxγ,^α*,^b{nXi=1yi(γzi+c*iα*+ aib)-nXi=1ln(1+exp(γzi+c*iα*+ aib))}。(19) 估计的^α*,然后使用方程(13)和(15)将^b反向转换回其原始空间,表示为^α和^β(t)。4、框架的有效性在本节中,我们进行模拟研究,以验证所提议的框架在有限样本量下的有效性。尽管该框架是多种类型复杂数据和股票预测之间的接口,但评估该框架估计的参数的效果很重要,因为这些参数可以为框架提供解释力。鉴于数据转换独立于框架中的预测模型,如第3.3节所述,逻辑回归被视为评估框架稳健性和有用性的分类方法的一种情况。模拟的细节描述如下。每个感兴趣的个体上有三种类型的预测因子,即标量数据预测因子、组合数据预测因子和功能数据预测因子。为简单起见,所有预测因子都按其中心进行缩放,以达到零均值。

20
可人4 在职认证  发表于 2022-6-10 03:03:17
数据由以下模型生成:yi=h(γzi+hα,ciiS+Zβ(t)xi(t)dt+σei),(20),其中h(u)=exp(u)1+exp(u)是连接函数,yi是0-1响应,zi是标量预测器,ciiS成分预测器,xi(t)是函数预测器,ei是噪声。在模拟中,我们首先生成预测值。zi公司∈ R由正态分布生成,平均值等于0,标准偏差等于1。成分数据的CII由三部分组成,每个部分均匀分布。EI为正态分布。σ控制信号与噪声的比率,这里我们设置σ=0.2、0.4和0.6。此外,函数数据xi(t)及其函数系数β(t)是在[0,1]上的t=100等距网格上生成的,因为(Hall等人,2007)β(t)=Xj=1βjφj(t),β=0.3,βj=4(-1) j+1j-2,j≥ 2,φj(t)=√2 cos(jπt),xi(t)=Xj=1γjZjφj(t),γj=(-1) j+1j-a/2,a=1.1,Zj~ U型[-√3.√3].在不丧失一般性的情况下,设γ=1,α=[α,α,α]=[0.3,0.5,0.2]∈ S、 然后通过πi=exp(γzi+hα,ciiS+Rβ(t)xi(t)dt+σei)1+exp(γzi+hα,ciiS+Rβ(t)xi dt+σei),i=1。。。,n、 (21)我们最终通过模拟概率为πi的伯努利分布的观测值来获得响应i的n值。生成模拟数据后,我们使用建议的估计程序来获得^γ、^α、^β(t)的估计值。这里,我们在方程(10)中设置λ=85%,以确定基的数量。对于每个样本量设置,“生成数据估计系数”程序重复200次,即。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 08:09