楼主: kedemingshi
382 24

[量化金融] 投资排名挑战:确定表现最佳的股票 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
85.5799
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24962 点
帖子
4219
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Investment Ranking Challenge: Identifying the best performing stocks
  based on their semi-annual returns》
---
作者:
Shanka Subhra Mondal, Sharada Prasanna Mohanty, Benjamin Harlander,
  Mehmet Koseoglu, Lance Rane, Kirill Romanov, Wei-Kai Liu, Pranoot Hatwar,
  Marcel Salathe, Joe Byrum
---
最新提交年份:
2019
---
英文摘要:
  In the IEEE Investment ranking challenge 2018, participants were asked to build a model which would identify the best performing stocks based on their returns over a forward six months window. Anonymized financial predictors and semi-annual returns were provided for a group of anonymized stocks from 1996 to 2017, which were divided into 42 non-overlapping six months period. The second half of 2017 was used as an out-of-sample test of the model\'s performance. Metrics used were Spearman\'s Rank Correlation Coefficient and Normalized Discounted Cumulative Gain (NDCG) of the top 20% of a model\'s predicted rankings. The top six participants were invited to describe their approach. The solutions used were varied and were based on selecting a subset of data to train, combination of deep and shallow neural networks, different boosting algorithms, different models with different sets of features, linear support vector machine, combination of convoltional neural network (CNN) and Long short term memory (LSTM).
---
中文摘要:
在2018年IEEE投资排名挑战赛中,参与者被要求构建一个模型,该模型将根据其在未来六个月内的回报确定表现最佳的股票。从1996年到2017年,为一组匿名股票提供了匿名财务预测和半年回报,这些股票被分为42个不重叠的六个月期。2017年下半年被用作模型性能的抽样测试。使用的指标是斯皮尔曼排名相关系数和模型预测排名前20%的归一化贴现累积收益(NDCG)。前六名参与者被邀请描述他们的方法。使用的解决方案多种多样,基于选择要训练的数据子集、深度和浅层神经网络的组合、不同的boosting算法、具有不同特征集的不同模型、线性支持向量机、卷积神经网络(CNN)和长-短期记忆(LSTM)的组合。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Investment_Ranking_Challenge:_Identifying_the_best_performing_stocks_based_on_th.pdf (650.4 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Applications Participants Quantitative Econophysics combination

沙发
大多数88 在职认证  发表于 2022-6-24 05:15:44 |只看作者 |坛友微信交流群
投资排名挑战:根据半年度回报率确定表现最佳的股票Shanka Subhra MondalIndian理工学院,KharagpurIndiashankasubhra@iitkgp.ac.inSharadaPrasanna MohantyEcole Polytechnique F’ed’erale de LausanneSwitzerlandsharada。mohanty@epfl.加州大学洛杉矶分校,USAmkoseoglu@ucla.eduLance伦敦联合王国大学兰尼佩里尔学院(RaneImperial College LondonUnited Kingdomlance)。rane14@imperial.ac.ukKirill罗曼诺-俄罗斯基里尔。vromanov@gmail.comWei-Kai LiuTaipei,台湾,ROCalphard。liu@gmail.comPranootHatwarMumbai,Indiapphatwar1995@gmail.comMarcel洛桑维特泽兰·马塞尔(SalatheEcole Polytechnique F’ed’erale de LausanneSwitzerlandmarcel)。salathe@epfl.chJoe Byrumprinciplicity,USAbyrum。joe@principal.comAbstract-在2018年IEEE投资排名挑战赛中,参与者被要求构建一个模型,该模型将根据其在未来六个月内的回报来识别表现最佳的股票。从1996年到2017年,为一组匿名股票提供了匿名财务预测和半年回报,这些股票分为42个非重叠的六个月期。2017年下半年被用作模型性能的抽样测试。在模型预测排名前20%的排名中,斯皮尔曼的排名相关系数和归一化统计累积收益(NDCG)使用的指标。前六名参与者被邀请描述他们的方法。

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-6-24 05:15:47 |只看作者 |坛友微信交流群
使用的解决方案多种多样,基于选择要训练的数据子集、深度和浅层神经网络的组合、不同的boosting算法、具有不同特征集的不同模型、线性支持向量机、卷积神经网络(CNN)和长-短期记忆(LSTM)的组合。指数术语论文关键词:股票收益率、贝叶斯、深度神经网络、boosting、主成分分析、支持向量机、卷积神经网络、长短期记忆网络。一、 简介投资决策越来越由数据驱动,利用环境和股票水平预测因素的变化模式来获得绩效优势。众所周知,预测股票收益率非常困难,因为预测因子和目标之间的关系信号与噪声的比率很低;为了指导投资策略,预测股票排名通常是不够的,而不是绝对回报。分析师挑选表现良好股票的能力即使略有改善,其潜在收益也是巨大的。在这次比赛中,参与者的任务是根据一组匿名财务预测指标,对1996年至2017年间一组匿名股票的半年回报率进行排名。除最后一个时期外,所有时期都提供了标记数据(预测值和公司回报),而最后一个时期只提供了预测值。参与者被要求使用滑动窗口程序在每个时间段仅使用该时间段之前可用的信息生成不同的模型。使用两个指标进行最终评估:斯皮尔曼的排名相关系数和模型预测排名前20%的归一化贴现累积收益(NDCG)。

使用道具

板凳
nandehutu2022 在职认证  发表于 2022-6-24 05:15:50 |只看作者 |坛友微信交流群
在参与者的最终得分中,1996年至2016年期间预测排名的质量与最终排名的质量具有同等的权重。二、简要文献综述:各种机器学习技术已被用于预测经济和环境变化,这些变化对股市预测的成功至关重要,也是利用时间序列形式的金融数据制定投资策略的基础。【24】使用量加权支持向量机【13】以及基于F分数的特征选择来预测股市的短期趋势。[23]提出了一种基于三阶段神经网络的非线性加权集成,其中第一阶段用于生成三个基础神经网络模型,然后进行粒子群优化[19],最后阶段学习使用SVM神经网络。[21]开发了一种混合两阶段融合方法,包括第一阶段的支持向量回归(SVR)[10],结合人工神经网络、随机森林[11]和第二阶段的SVR,用于有效预测股市指数的未来价值。[9] 基准集成方法,如Adaboost[16]、Random Forest[11]和Kernel Factory[8],与logistic回归、支持向量机、K近邻、神经网络等单一分类进行对比,并表明Random Forest是股票价格方向预测的最佳算法。由于各种任务的深度学习取得了成功,因此也在这一领域进行了探索。例如【22】提出了一种混合模型,该模型使用自回归滑动平均模型、指数平滑模型和电流神经网络的预测。他们还使用遗传算法来确定混合模型的权重。

使用道具

报纸
何人来此 在职认证  发表于 2022-6-24 05:15:53 |只看作者 |坛友微信交流群
[15] 使用长-短期记忆网络[17]预测标普500成分股的样本外定向运动,其表现优于随机森林,逻辑回归分类。[20] 提出了一个深度神经网络、梯度增强树和随机森林的集合,以产生标准普尔500指数股票的样本外回报。最后,值得注意的是,2017年在KaggleTMplatform上进行的一场类似比赛的结果[2],参与者同样需要根据匿名预测因子预测金融工具的排名。简单线性模型在顶级竞争对手的解决方案中占有重要地位。最终获胜的解决方案的R值较低,为0.038,这突出了排名任务的难度。三、 训练子集选择mehmet-koseog与监督学习中常用的方法不同,该算法只使用训练数据的一个子集来训练模型,其中训练集中的所有样本都用于训练。在这种方法中,我们试图找到能够提高目标周期预测精度的周期,并仅将这些周期包含在训练集中。通过搜索训练集中的周期并使用测试数据的性能,该算法可以找到要包含在数据集中的最佳周期。A、 方法提出的训练子集选择算法迭代搜索要包含在训练集中的时段。该算法最初从完整的trainingdataset开始。使用整个训练数据集对监督学习算法进行训练,获得了预测精度。然后,该算法从训练数据集中删除第一个周期,并重新训练监督学习算法。如果删除第一个周期可以提高预测精度,则会将该周期从训练集中删除。

使用道具

地板
kedemingshi 在职认证  发表于 2022-6-24 05:15:57 |只看作者 |坛友微信交流群
然后,该算法移动到第二个周期,将其从训练数据中删除,并评估预测精度。类似地,如果删除可以提高准确性,则第二个周期将从数据集中删除。该算法以相似的方式遍历所有时段。第一次通过所有训练周期后,算法再次重新启动该过程。此过程将重复,直到训练集收敛。除了训练子集选择算法外,我们还使用贝叶斯线性回归作为监督学习算法。通过对参数进行高斯先验分析,该模型可防止过度拟合训练数据。有关训练子集选择和监督学习算法的更多详细信息,请参阅另一篇论文[]。B、 实验和结果我们的实验表明,训练子集的选择显著提高了预测精度。我们观察到,当使用整个训练数据时,皮尔曼相关性约为0,而当使用我们的训练子集选择算法时,我们得到的皮尔曼系数为0.26。C、 讨论我们的结果表明,通过有选择地构建培训数据集,可以显著提高预测准确性。背后的主要原因是,培训数据包括来自不同市场条件的时段,其中一些时段可能无法反映目标时段的市场条件。训练子集选择算法隐式地将与目标周期具有相似特征的周期选择到训练集中。四、 资产评级预测的深度和浅层方法Lance-RaneA采用岭回归模型和深度神经网络相结合的方法,使用滑动窗口技术预测42个非重叠时期的匿名金融资产回报排名。

使用道具

7
nandehutu2022 在职认证  发表于 2022-6-24 05:16:00 |只看作者 |坛友微信交流群
不同时期的业绩变化很大,但始终优于随机股票排名,特征选择是业绩的一个重要决定因素。A、 方法进行最小预处理和特征工程。缺失的值被替换为零,新的特征是通过在给定的六个月内对所有特征取平均值来创建的,在这六个月内观察结果可用,将可用特征的数量增加到493个。除最后一个时期外,所有时期都有标记数据,可为模型选择程序提供验证反馈。对于这些时期,使用该时期之前的所有可用数据为每个时期训练单独的模型,即使用滑动窗口程序的训练集。训练集中的特征按与目标值的相关性排序,特征选择按逐步选择进行,使用当前周期60%的标记训练数据提供反馈。使用岭回归模型评估特定特征的效用,并使用剩余40%的当期数据调整超参数以提供反馈。换言之,使用样本外数据对候选模型进行测试,以提供最终测试性能的无偏估计。在最后一段时间内,没有可用的验证数据,因此为了提高在这个相对较小的数据集上表现良好的机会,在所有之前的时间段内,通过genericvalidation进行特征选择。也就是说,功能是通过简单的规则来选择的,这些规则在所有之前的阶段都会产生良好的性能,因此被认为有可能在未来的测试数据上提供合理的样本外性能。

使用道具

8
可人4 在职认证  发表于 2022-6-24 05:16:03 |只看作者 |坛友微信交流群
这一战略再次要求在每个时期建立模型,以便验证模型选择程序。对于前期模型的训练目标,取normalizedreturn并进行如下转换:o值乘以表示时间段(介于1和42之间)的数字整数指数,并提高到某个幂,p.o目标值在整个训练数据集中按大小排序。o值p是根据其交叉验证的性能选择的,设置为2。使用岭回归模型进行前期预测,在验证数据中选择岭回归模型的超参数以提高其性能。模型使用850的阿尔法正则化系数,排除干扰参数。在最后一个阶段,使用验证数据所有阶段的平均得分进行模型选择,并且模型没有针对给定阶段进行大量优化,以降低过度拟合的风险。发现在张量流中实现的深度前馈神经网络能够执行。最终模型由3个隐藏层组成,每个隐藏层由2000、1000和400个神经元组成。ReLU非线性被应用到整个输出层,但在最终输出层除外,在该层中,使用tanhfunction将输出压缩到范围(1,1)。正则化涉及在每一层之后应用衰减和权重衰减,其参数针对整个验证数据的性能进行了调整。发现性能随

使用道具

9
何人来此 在职认证  发表于 2022-6-24 05:16:05 |只看作者 |坛友微信交流群
对于适用于最终阶段的模型选择程序,所有之前阶段的平均性能为0.065。两种方法在不同时期都存在显著差异。C、 讨论结果表明,复杂的非线性方法在资产排名问题中起着重要作用,传统上,简单的模型是依赖的。前期和期末模型的性能差异很大,可归因于IMODEL性能:斯皮尔曼的RANKavg。评分(s.d.)前期0.268(0.132)期末0.065(0.102)到期末用于模型选择的更通用的方法,以减少过度拟合的风险。通过乘以表示周期顺序的时间指数进行转换,发现对于岭回归模型的交叉验证性能是有益的。通过以这种方式进行转换,从较新的周期到测试周期的训练数据的缩放更加显著,因此这些周期的值范围更大。因此,在随后的排名中,这些最新分布的尾部中的值被归因于更极端的位置,从而提供了更大的训练信号。直觉上,考虑到一些市场条件和其他与股票价值相关的指标的逐渐时变性质,似乎最近的周期可以提供更多的相关信息;这种转变被认为反映了这一点。五、 提高了股票预测Shanka Subhra Mondal投资组合经理需要根据股票回报的分布来确定具有极端正回报或负回报的股票。在正确的时间拥有正确的数据并从中提取相关特征,然后使用适当的模型来拟合这些特征,对于成功预测可能影响投资绩效的经济和环境变化起着至关重要的作用。

使用道具

10
能者818 在职认证  发表于 2022-6-24 05:16:09 |只看作者 |坛友微信交流群
我的方法大体上包括创建新的特征,并使用不同的boosting算法,根据不同特征集的验证分数预测不同时期的股票回报。A、 方法首先进行少量特征工程。在每个时间段,每个变量被分解为六个不重叠的观测值。例如,X1在每个周期内有六个月的观测值,表示为X11、X1 2、。。。,X1 6。为了便于建模,我们找出了每个时间段内的平均值。此外,还创建了一个新特征,即每个变量平均值的百分比。该时期的年份和季度也被用作我们模型的特征。所有缺失值的插补均用零完成。共创建了142个特征(70个平均值、70个平均百分比、年份和季度)。采用Expandingwindow程序对模型进行训练,直到时间t,以预测时间t+1的所有观测值。不同的模型用于不同的时间段,具有不同的特征集。使用了四种回归模型,分别是NamexGBoost[12]、lightgbm[18]、random forest[11]和CatBoost[14]。Lightgbm模型(l)使用了平均、年度、季度的特征。Lighgbm模型(l1)使用了平均百分位、年份、季度的特征。Xgboost模型(x)使用了与lightgbm模型(l)相似的特性。Xgboost模型(x1)使用了类似于lightgbm模型(l1)的特性。随机森林仅使用特征平均值和平均百分位数,而ScatBoost模型使用了所有特征。这些模型使用的所有参数都可以在上传到ITLAB的代码中找到。克劳代。组织。catboost和随机森林模型仅在1996年2月至2002年1月期间进行训练,而其他模型则使用了扩展窗口技术。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-23 20:08