楼主: 何人来此
1091 42

[量化金融] 在线评论可以预测个股的长期回报 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-6-25 05:48:48
这种日期差异包括交付时间和部分体验时间,这是一种产品体验。此类中的基本功能是WnDays,它表示n周内所有评论的平均天数。有一个特殊变体WnDaysHm=WnDaysi×WnReviewi- WmDaysi公司-n×WmReviewi-n显示n周内的总天数值与前几周的总天数值之间的差异。附录表A.10列出了与天数相关的所有特征。(2) 有用。U sef ul类别包括从usefulV oteCount字段中提取的特征,该字段表示认为该评论有用的消费者数量。在线评论中有用的投票为其他消费者在检查和评估产品时做出购买决策提供了建议。这一类的基本特征分别是WnUseful和WnUsefulR、所有评论的usefulV ote的累积值以及n周内至少获得一次有用投票的评论数。附录表A.11列出了所有与TOUSUE相关的特性。(3) 没用的。无用类别包括从theuselessV oteCount字段中提取的特征,相反,这表示认为评论无用的客户数量。这一类别的基本特征分别是Wnubleed和Wnubleessr、uselessV ote for reviews的累积值以及在几周内收到至少一张无用选票的评论数。附录表A.12列出了与该类别相关的所有特性。(4) 图像。图像类别由从图像字段中提取的特征组成,其中列出了客户在评论中发布的图像。评论中所列的图像比官方图像更生动、更客观,这有助于消费者选择产品。评论中的图像数量由img表示。

22
kedemingshi 在职认证  发表于 2022-6-25 05:48:51
这一类的基本特征是WnImage和WnImageR,它们分别表示n周内的图像总数和图像评论数。附录表A.13列出了与图像相关的所有特征。(5) 答复。回复类别包括从replyCount字段中提取的特征,该字段表示作为消费者与销售人员互动的官方卖家的回复数量。这一类的基本特征是WnReply和WnReplyR,它们分别代表n周内回复的总数和附有回复的评论数。附录表A.14列出了与回复相关的所有特征。除了已知特征和消费者特征之外,我们还提取了两类代表以下所列消费者图像的特征,这两类特征在以前的开发中是忽略的。Parker(2009)表明,消费者形象与品牌形象相关;此外,一个人对自己的印象往往会影响到个人购买的品牌(Plummer,2000;Belk,1988;Sirgy,1982)。作为消费者形象的代理,使用消费者用来发布评论的设备。除客户外,客户是否是移动设备也是影响购买意愿的一个因素(Wang等人,2016;Holmes等人,2013)。(1) 客户。客户端类别由从用户客户端字段中提取的特征组成,这些特征反映了消费者发布评论的设备。有四种设备:Web、iPhone、Android和微信,分别用0、2、4和21表示。该类别的基本特征是WnClientc,它反映了给定客户c发布的评论数量。附录表a.15列出了与客户相关的所有特征。(2) 手机。

23
kedemingshi 在职认证  发表于 2022-6-25 05:48:54
移动类别包含从iMobile字段中提取的特征,该字段显示用户是否通过移动设备对产品发表评论。这一类别的基本特征是WnMobile,它是指n周内通过移动设备发布的评论数。附录表A列出了所有与移动相关的特征。16通过上述方法,我们从在线产品评论的各种属性中总共提取了7960个特征。除了在早期研究中被证明对股票定价和收益有用的已知6类特征外,还提取了代表消费者体验和图像的其他7类特征,以充分利用在线评论中的信息。此外,除了仅使用13类基本特征外,我们还根据基本特征计算各种差异序列,这不仅是为了平稳性,而且也是为了反映客户对品牌态度的变化。总之,我们为股票收益率预测的未来研究提供了一套新的特征提取方法。4.2. Targets与致力于每日股票收益的广泛研究相比,现有研究很少研究每周股票收益及其预测(Hsu,2011;Jasemi等人,2011;Chen和Chen,2015)。缺失的长期预测模型的这一重大缺口促使本研究调查个别股票的周收益率。如等式(1)所示,我们将每日股价数据转换为每周价格数据,这与特征的粒度一致。1和-方程式(1)中的1分别代表一周中的第一个和最后一个交易日。CLOSEWi=CLOSEWiT D-1OP ENWi=OP ENWiT DLOWWi=最小值{LOWWiT Dj | j∈ [1,5]}HIGHWi=max{HIGHWiT Dj | j∈ 【1,5】}(1)每周股票回报率在方程式中定义。(2) asRWn=关闭+i- 闭嘴闭嘴,我∈ [1,12](2)从一周到十二周不等。4.3.

24
nandehutu2022 在职认证  发表于 2022-6-25 05:48:57
目标选择在上述章节中,我们将描述这些特征和目标,这将有助于揭示在线评论和股票回报之间的相关性。然而,本文的目的是找出在线评论是否可以预测长期,例如每周股票回报率。此外,由于拉各夫在线信息的长期影响(Luo,2009;Tirnillai和Tellis,2012),在线评论功能的发布时间提前了,从1到12周不等。因此,根据移位的时间,每个特征对应于12个时间序列。在分析特征和目标之间的关系之前,我们首先将数据项转换为0到1之间的值的所有时间序列标准化为Ti=(Ti-Tmin)/(Tmax-Tmin),T表示特征或目标的任意时间序列,T是时间序列T中的第i项,tmax和tminar分别是T的最大值和最小值。然后,通过Pearsoncorrelation分析,我们将特征和目标之间的线性关系测量为ρ。为了观察哪个目标是每周股票回报预测的最佳选择,我们需要确定哪些目标与102家公司的所有特征具有最佳相关性。此外,除ρ外,p值定义为ρ√n-2.√1.-ρ、 其中,nis观察数量也用于反映特征和目标之间相关性的重要性。较小的p值表明完整假设是错误的,这使我们可以得出相关系数不同于零,并且存在线性关系的结论。通常,0.05是确定相关性是否显著的临界值。

25
mingdashike22 在职认证  发表于 2022-6-25 05:49:01
在我们的研究中,特定企业i中特征f和目标t的p值随时间s的变化被表示为p V值fsti。对于目标选择,我们以0.05作为临界p值计算每个功能目标对的重要企业数量。考虑到每个特征对应12个时间序列,我们首先检查一个特征目标对对特定企业的重要性,计算公式为(3)。当十二个移位时间序列中有一个p值小于0.05时,我们确认表i中的这一特征-目标对是显著的,并将相应的显著性F指定为1。计数公式如公式(4)所示,其中I表示样本公司的数量。重要性FTI=1.s P V aluefsti≤ 0.05秒∈ [1,12]0,否则。(3) Countft=IXi=1重要性fti(4)按目标汇总,我们绘制了图1所示重要数字的方框图。在该图中,每个方框代表具有特定目标的所有功能的公司的重要数字分布。例如,RWbox中最大的数字是特征WClientRatioDiffH的99,这意味着102家公司中99家公司的目标rw和特征WClientRatioDiffHin之间的关系非常重要。在系统比较了所有目标的所有分位数后,我们选择了代表八周或近两个月股票回报的RW作为我们的预测目标,这出乎意料地符合口碑传播效应的最佳滞后长度(Luo,2009)以及客户评论的延迟效应(Luo,2009;Tirnillai-andTellis,2012;Huang,2018)。RW1 RW2 RW3 RW4 RW5 RW6 RW7 RW8 RW9 RW10 RW11 RW12TARGET020406080100重要公司数量图1:具有一个特定目标的每个特征的重要公司数量分布。5.

26
大多数88 在职认证  发表于 2022-6-25 05:49:04
模型和结果在本节中,基于离散化定义方法,预测长期股票收益的回归问题被转换为相应的分类问题。我们执行特征选择以提高预测性能。解决股票收益分类问题的线性和非线性方法均通过分类选择训练集上的5倍交叉验证进行验证,我们获得了一个名为XGB-OR的高性能预测模型。然后,我们使用所选的模型进行保持验证测试,以进行实际应用评估;还建立了基于十项技术指标的基线模型,以供进一步比较。5.1. 如前几节所述,RW是本文的预测目标。在大多数情况下,股东只关心股票价格的运动方向,这意味着,与长期回报的确切价值不同,回报是正还是负才是现实中最重要的利益,因为它可以为交易方向提供建议。因此,使用零作为分界点RW8,iis转换为二进制变量yi(RW中第i周的元素),即yi=1,RW8,i≥ 00,否则。(5) 事实上,切点的不同值可以测试预测模型的敏感性,这将在稍后进行检查。所有特性和目标都标有数据对齐的时间戳。特征是在时间戳之前从评论中提取的,目标是在时间戳八周后关闭价格变化。如图A.2所示,网上购物的爆发始于2014年左右;因此,我们根据日期将数据集分为两部分:培训子集(2014年1月至2017年6月,3.5年)和测试子集(2017年7月至2017年12月,半年)。

27
可人4 在职认证  发表于 2022-6-25 05:49:07
训练子集包含14688个固定周样本,用于在提取的特征中选择特征,并拟合和估计预测模型。该测试集包含2537个固定周样本,保存在保险库中,仅在评估结束时取出,以验证我们的模型在实际长期(如八周)回报预测中的有效性。5.2. 特征选择不相关的特征会引入大量噪声,导致模型朝着随机错误的方向训练。特征选择是数据挖掘数据预处理中最重要和最常用的技术之一(Blum和Langley,1997)。它减少了特征的数量,删除了不相关、冗余或有噪声的数据,并为应用程序带来了立竿见影的效果:加速了数据挖掘算法,提高了挖掘性能,如预测准确性和结果可理解性。此外,考虑到过滤方法独立于任何特定的分类(Tang等人,2014年;Blum和Langley,1997年),从在线审查数据中提取7000多个特征后,剩下的另一项任务是从中选择一个子样本,以在长期回报预测中取得良好的性能。目前,boosting(Freund et al.,1996)是最好的分类方法之一,因此也是机器学习中最常用的分类方法之一。这种方法在研究和实际应用中都得到了广泛的讨论和分析,并且针对不同的目的提出了许多不同的boosting算法变体(Schapire和Singer,1999;Friedman et al.,2000)。具体而言,boosting算法能够选择最佳的特征组合(Creamer和Freund,2010)。

28
何人来此 在职认证  发表于 2022-6-25 05:49:10
作为最佳Boosting算法之一,GradientBoosting被用于特征选择。0%5%10%15%20%25%30%35%40%45%50%55%60%65%70%75%80%85%90%95%特征过滤边界0.550.560.570.580.590.60精度图2:不同特征过滤边界的5倍交叉验证的平均精度。在上述章节中,我们统计了每个功能目标对的重要企业数量。将确认目标设为RW,通过将信号数除以样本公司数,我们获得每个特征f的通过率,表示为P assingRatef=Countft/I,其中t表示所选目标,I表示样本公司数。我们假设在大多数企业的八周轮换中,有价值的特征总是很重要的,也就是说,我们可以通过限制分配率来选择特征。例如,通过将边界设置为0.2,我们过滤出P assingrate小于0.2的特征。然后,通过对训练子集中的GradientBoostingClassifier进行5倍交叉验证,我们获得了这些剩余特征的平均精度。通过将P assingRate从0遍历到0.95,步长为0.05,我们在特征选择中进行了5次交叉验证。最后,我们获得了图2所示的每个特征滤波的平均精度。从这张图可以清楚地看出,平均精度的表现就像过山车;也就是说,平均精度快速上升和下降。该趋势线的峰值为59.22%,P分配率为0.2,精确度最终下降至峰值后的随机值。因此,在过滤掉P分配率小于0.2.5.3的特征后,选择6246个特征进行后续研究。

29
可人4 在职认证  发表于 2022-6-25 05:49:13
在本文中,我们采用各种机器学习算法,即XGB、GradientBoosting、AdaBoost、LSTM、Bagging、Logistic回归、RandomForest和Gaussian Naive Bayes,来解决长期股票收益预测的分类问题。这些方法对于二进制或多重分类都是最前沿和流行的。为了预测第i周的类别(0,1),所有模型的输入属性都包括从特征工程中选择的所有特征。我们采用5倍交叉验证来系统地检验这些模型在训练子集中的性能。准确度是实际投资中最有希望的指标,用于评估拟议模型的性能。表3显示了5倍交叉验证模型的精度。请注意,随机数是指比例最大的样本类别的百分比。Boosting算法和深度学习模型可以击败随机线,尤其是XGB模型,它以最高的平均精度优于其他模型。然而,其余的模型甚至没有取得令人满意的结果。因此,我们选择XGB模型进行验证测试,并将其命名为表3:模型精度模型精度XGB 59.65%梯度增强59.22%AdaBoost 57.75%LSTM 57.05%随机56.77%装袋56.06%LogisticRetression 55.73%RandomForest 53.73%GaussianNB 49.05%it XGB-OR。请注意,为了进一步测试特征选择的有效性,还对所有分类器进行了测试,并考虑了所有特征。我们发现,最佳性能受到噪音特征的显著影响;特别是,训练过程比特征选择过程要耗时得多。5.4. 验证为了以更现实的方式进一步评估我们的预测模型,我们在测试子集上应用我们的股票预测分类模型。

30
mingdashike22 在职认证  发表于 2022-6-25 05:49:18
同时,为了避免数据窥探,我们将培训数据的结束日期设置为2017年4月30日。我们使用所选的XGB或模型评估长期股票收益预测;指标如表4所示。结果表明,该模型具有很高的预测性能,预测精度比随机值(51.59%)高出近10%。此外,正方向的精度为66.05%,而正方向的精度为48.36%,这使得我们的模型在实际应用中特别实用。除XGB-OR外,我们还与上述章节中提到的其他分类机构进行了保持测试;毫无疑问,XGB或优于其他分类器,具有最高的准确性。为了进一步检验在线产品预测能力的稳健性表4:ValidationXGB或XGB-10T准确性61.02%47.08%Precision 66.05%46.96%Recall 37.73%92.53%F-Measure48.03%62.30%reviews,我们比较了我们的模型的预测性能,该模型利用在线评论与以技术指标为特征的模型。受传统金融时间序列预测方法(Patel et al.,2015;Kim,2003)的启发,建立了基于周价格的基准技术指标模型XGB-10TI。XGB-10TI的输入属性为表A.17所示的十项经典技术指标。此外,两组模型的预测目标和培训和测试周期是相同的。从表4可以看出,XGB ORmodel的性能在准确性和精度方面都优于基线。我们可以得出结论,在线评论比简单的金融时间序列更有预测力。5.5. 现实应用在上述章节中,我们发现近3.5年的在线评论对剩余半年的长期股票回报具有预测能力。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-3 23:03