楼主: 何人来此
4691 25

[量化金融] 在情绪分析中使用股票价格作为基本真理生成 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-11 03:07:12
这些指标之间的差异被用来确定一个类别主导标记预测的情况,但这在最终的准确性中并不明显(例如,一个总是预测购买的模型在一个数据集上进行测试,其中大多数标记为购买的推特会误导性地显示良好的性能)。我们基于价格的学习方法允许模型识别对特定股票具有唯一预测性的单词:例如,“timcook”被识别为AAPL的销售词。为每个股票开发不同模型的能力产生了高度特定的词典,其中一些单词对竞争公司的股票持有相反的看法。D、 时间框架评估模型开发过程中的一个考虑因素是数据的生命周期-收集的数据在多长时间内仍然相关?最初收集了两年多的数据,但预计过去进一步收集的数据在预测未来时将不再有用。使用在12个不同时间框架内以1个月的增量进行训练的分类,显示出3个月左右的表现峰值,如图1所示。E、 特征选择文本分类通常最初会产生较大的特征集,因为在文档语料库中观察到的整个单词集合都被视为特征。

12
mingdashike22 在职认证  发表于 2022-6-11 03:07:15
例如,当对2016年80%的AAPL推文样本进行培训时,得到的特征向量总共包含165286个特征。标记化过程中执行的过滤步骤将该数量减少到50000以下,但进一步的功能选择Model RankerFeature Subset Size1000 2000 3000 4000 5000 6000 8000 9000 10000SVMCS 0.596 0.598 0.576 0.566 0.558 0.586 0.593 0.558 0.562 0.564FV 0.595 0.569 0.597 0.596 0.604 0.598 0.597 0.590.584 0.558MNBCS 0.628 0.649 0.650 0.651 0.648 0.642 0.641 0.629FV 0.627 0.648 0.646 0.649 0.639 0.628 0.641 0.641 0.640 0.635MI 0.511 0.517 0.529 0.530 0.5310.542 0.531 0.526 0.523 0.527RFE 0.510 0.511 0.508 0.511 0.514 0.517 0.516 0.518 0.522 0.525LRCS 0.629 0.629 0.630 0.629 0.625 0.624 0.616 0.613 0.609 0.607FV 0.616 0.621 0.615 0.616 0.613 0.614 0.613 0.612 0.601MI 0.515 0.521 0.525 0.520 0.522 0.528 0.524 0.525 0.525 0.524RFE 0.521 0.526 0.526 0.530 0.527 0.531 0.527 0.526 0.528 0.526表I:每个模型的验证集精度不同的特征选择方法和子集大小。在“模型”列中,“SVM”表示支持向量机,“MNB”表示多项式朴素贝叶斯,“LR”表示逻辑回归。在“Ranker”列中,“CS”表示卡方,“FV”表示F值,“MI”表示互信息,“RFE”表示递归特征消除。对于CS尺寸为5000的MNB,最佳精度为0.651(粗体)。有关进一步讨论,请参阅文本。图1:验证集的准确性,当培训时间从1个月增加到12个月时,会不断增加。根据特征的统计特征选择特征。[12]中的研究广泛关注了自然选择在推特情感分类中的有效性。

13
能者818 在职认证  发表于 2022-6-11 03:07:18
他们的结果证明了使用特征选择的价值,并特别注意了排序系统的选择和特征子集的大小。1) 卡方检验:χ检验是一种非常著名的非参数检验,用于确定两个事件是否独立,这可以通过将两个事件视为术语发生和类别发生来应用于特征选择。在这种情况下,χ特征选择是计算推特中出现的单词是否独立于推特分类为买入还是卖出。单词根据其值进行排序,计算公式为:χ(d,t,c)=Xet∈{0,1}Xec∈{0,1}(Netec- Eetec)Eetec其中d、t和c分别指文件、术语和类别,N是d中的观察频率,E是d中的预期频率,ec=1(如果文件为c类,则为0),et=1(如果文件中包含术语t,则为0)。例如,Net=1ec=1表示在c类文件d中观察到的术语t出现频率。如果事件是相关的(因此购买或出售的分类取决于单词的出现),则表示该单词是有用的,应作为一个特征包含在内。

14
可人4 在职认证  发表于 2022-6-11 03:07:21
每个股票的推特语料库中的所有单词都是根据χ统计进行排序的,并且只有高度链接的单词才保留在该股票的特征向量中。2) 方差分析F值:方差分析(ANOVA)是指一组计算组间和组内方差的参数统计模型和测试,方差分析统计中计算的关键元素之一是F值,比率:F=组间方差组内方差F值用于估计两个变量之间的线性相关性(这里指的是文档的类别和术语),与χ一样,此特征选择方法返回特征的单变量分数,可用于根据新实例的分类,按其值的顺序对特征进行排序。3) 互信息:方差分析F值测试估计事件之间的线性依赖程度,而互信息是以任何形式衡量统计依赖性。通常,它通过对另一个事件的了解来衡量一个事件的已知信息量。在这种情况下,它量化了通过观察推文中的单词获得的推文类别的信息量。统计数据计算为:MI(d,t,c)=Xet∈{0,1}Xec∈{0,1}p(et,ec)logp(et,ec)p(et)p(ec)其中,d、t和c再次分别指文档、术语和类别,p(et、ec)指ETA和ec的联合概率分布,p(et)和p(ec)指其各自的边际概率分布。4) 递归特征消除:还考虑了一种非统计特征选择方法,通过递归选择越来越少的特征,逐步修剪当前子集中贡献率最低的特征,来确定非最佳特征子集。

15
何人来此 在职认证  发表于 2022-6-11 03:07:24
这种基于权重的特征选择方法背后的动机是,根据从集合中移除特征所导致的错误率来证明特征的值。该方法不适用于此处开发的SVM分类器,因为RBF核的映射函数不明确,因此无法确定递归特征选择所需的权重向量[8]。此外,与SVM模型相结合的互信息特征选择方法在初始测试中运行时间极长,性能较低,因此未进行充分评估,因此也未包含在结果中,如表1所示。使用多项式朴素贝叶斯(NaiveBayes)获得了最高精度,通过χ排名排名前5000个特征。与其他维度还原方法相比,排名方法的使用提供了一个关键优势,即能够识别哪些单词对分类贡献最大。F、 股票相关特征构建除了词典词的特征向量外,还考虑了与股票定量表现相关的三个方面:股票价格的前向;股票交易量;股票价格的时间关系。由于预期定向价格趋势将继续,增加了一个代表先前看涨或看跌趋势的特征。它被构造为二进制值的密集矩阵,然后转换为稀疏矩阵,以便与现有的单词特征矩阵串联。有关更多详细信息,请参见[1]。交易量特征表示推特发布前一小时内股票的总交易量。

16
大多数88 在职认证  发表于 2022-6-11 03:07:27
这是作为整数值和二进制值进行测试的(基于整数值是否超过每小时平均交易量的阈值-用于实现线性可分性)。为了测试股价波动是否与时间相关,对每小时、每天、每月和每季度的趋势进行了评估。月周期和季度周期的数量不足,无法推断所服务的模式,但图2所示的每小时和每日频率分布的分析表明,工作日的特征可以代表不同的分布。四、 结果从理论上讲,任何超过50%的预测准确率结果都是在交易环境下产生的,因为它比随机机会表现更好,从而削弱了有效市场假说。然而,为了评估模型的实际价值,需要测试其预测是否能够生成预测值。(a)每小时趋势(b)每日趋势图。2: 显示定向价格信号频率的时间趋势的直方图。A、 交易算法的可行性实施了一个简单的交易算法,2017年1月推特的总数据集作为输入,之后,就像实时运行一样,每小时从每个交易日上午10点到下午3点处理一个决策。前一个小时发布的所有推特都会进行情绪分析,50%的阈值决定了是买还是卖股票。然后持仓一个小时,然后再进行平仓或亏损。

17
kedemingshi 在职认证  发表于 2022-6-11 03:07:31
考虑到每个交易日进行6次交易,在2017年1月的测试期内,市场在20天内开放交易,每只股票总共进行了120次交易。为了交易执行的简单性和一致性,每小时进行的交易规模为100股,尽管不同的股票具有不同的价值,并且每个股票的价值随着时间的推移而变化。为了使算法的可操作性透明,最初显示的结果没有产生任何费用,因此获得或损失的总金额完全是预测的结果。为了比较每只股票的最终收益,计算的是收益百分比,而不是绝对值。这是通过首先确定特定股票以此类交易量(100股)交易所需的初始账户规模来实现的,允许账户价值的10%的负利润率以保持潜在损失。例如,考虑到2017年1月苹果股票的最高每股价格为122美元,所需的账户规模计算为13420美元。对苹果的交易成功率为64.1%,120笔交易中有77笔交易产生了利润,总收益为729.50美元。因此,该月回报率为5.44%。该值可以外推到更广泛认可的88.6%的年化回报率,尽管以这种方式组合的一个结果的累积效应给出了一个更不确定的值,因为全年保持这个准确的月回报率的可能性很低。表二显示了苹果、特斯拉、推特和Facebook股票的月度回报率。

18
mingdashike22 在职认证  发表于 2022-6-11 03:07:34
也为Net flix收集了数据,但在测试时,我们认为引用股票的推特数量不足以用于交易算法,因为自动交易决策是股票AAPL TSLA TWTR FBReturn 5.44%9.68%1.0%-3.12%表二:2017年1月起的月回报率。股票AAPL TSLA TWTR FBReturn 4.48%8.72%0.04%-4.08%.表三:2017年1月起的月回报率,包括预计产生的费用。股票订单订单已下订单更正APLBUY 51 42.5%32 62.7%Sell 69 57.5%45 65.2%TSLABuy 79 65.8%45 60.0%Sell 41 34.2%23 56.1%TWTRBuy 9 7.5%6 66.7%Sell 111 92.5%52 46.8%FBBuy 23 21.3%15 65.2%Sell 85 78.7%35 41.1%表四:每只股票执行的订单明细。基于大量案例中的单个推文。[21]中的研究使用基金投资组合持有量和交易数据来调查交易成本。对于大盘股成长型基金集团,使用所报告的佣金、买卖价差和价格影响的佩鲁尼成本,估计单位交易总成本为0.48%。考虑到我们的投资组合收益率高达100%(所有股票均已交易),以及交易的替代(1小时后买入订单后卖出订单,反之亦然),每月交易成本相当于账户规模的0.96%。[21]中所有基金组的年度支出交易成本估计为1.44%。考虑到这些估计费用,推特股票的交易收益几乎为零,而剩余股票的回报率有所下降,但结果相似。表三显示了包括每只股票的每月成本在内的结果。表四显示了所进行交易的明细,令人感兴趣的是,尽管所有四只股票在测试月份的价格都在上涨,但大多数订单都已售出。

19
能者818 在职认证  发表于 2022-6-11 03:07:37
威特的极端负偏斜很可能是训练期间两次价格大幅下跌的结果,产生了大量的负数据。同样明显的是,在测试期间,股票按现金标签使用的流动性顺序(AAPL、TSLA、TWTR、FB)列出,并且收益相应减少,因此,债券数量与算法的可操作性之间存在着关系。FaceBook的交易数量实际上减少了10%,这纯粹是因为推特数量不足(零),无法在数小时内产生信号。有关进一步讨论,请参见[1]。用于数据收集的web抓取方法是进一步测试的一大障碍,因为它不会返回所有发布的推文,而且推文API施加的限制阻止了对发布推文的完整数据集的自由访问。然而,考虑到推特预测的准确性≥ 结果表明,在所有股票中,每小时更多的糖果肯定是导致交易算法更具竞争力的一个因素。B、 结果的显著性【2】的研究基于情绪“平静”与道琼斯工业平均指数波动之间的相关性进行了每日方向预测(结果称为“推特对冲基金”),使用基于二项分布的模型测试了偶然结果的统计显著性。同样的评估方法也适用于本文中的结果。使用总共468笔交易中253笔正确交易的计数,每个交易成功的概率为50%,则通过机会获得该结果的概率为0.789%。

20
mingdashike22 在职认证  发表于 2022-6-11 03:07:40
由于测试是在总85天周期中的20个交易日进行的,因此选择的时间框架的大致数量为4.25,并且随机持有该时间段的可能性计算为3.35%——这与[2]的结果相似,这意味着准确性很可能不是由于偶然或有利的测试周期选择。也可以计算累积二项式概率,它不是给出468笔交易中确切的出局者的可能性,这似乎是一个过于精确的约束,而是给出468笔交易中至少253笔是正确的概率。换言之,排序算法的性能等于或优于此处偶然生成的算法的可能性有多大。该结果为3.57%。当将该值与选择有利测试期的可能性相结合时,概率上升至15.2%。尽管这种可能性仍然很低,但也不容忽视,因此鉴于所有交易都是在2017年1月进行的,2016年12月又对一个月的AAPL数据进行了测试(使用前3个月的时间来培训分类员),以验证所选时间段不会影响所产生结果的可信度。由此得出的本月算法的可实现性给出了3.86%的回报率。这并没有前一个测试期那么高,但进一步证明其可行性的证据可以缓解对选择性时间段的担忧。C、 与基线方法的比较两种基于情绪分析的交易方法被评估为基线措施。本文开发的基于股票价格的方法从此被称为方法A。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 07:42