楼主: kedemingshi
814 24

[量化金融] 投资排名挑战:确定表现最佳的股票 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-24 05:16:11
该模型以及为下一个时间段的训练数据提供最高spearman相关性的选定特征被用于预测该时间段的测试数据。B、 实验和结果表II显示了在验证集中获得的各时间段的Spearman相关性以及使用的模型。图1:。未看到数据的股票回报预测lightgbm模型对2017年第一季度股票回报的预测如图1所示。C、 讨论结果表明,具有适当特征集的预测建模可以有效地解决本文提出的问题。然而,主要的挑战是选择模型,以及在2017年没有验证数据来测试该时期模型的情况下,应使用哪些特征来预测股票排名回报。Hencepicked up lightgbm model(l)及其相关功能,如Eaverage、year、quarter,因为其更快的训练速度、更低的内存使用率和更高的效率。

12
可人4 在职认证  发表于 2022-6-24 05:16:15
作为未来工作的一部分,正确选择训练期子集以及表II获得的精子相关性时间段和模型分数2002 1-Lightgbm(l)0.1172002 2-Xgboost(x)-0.112003 1-Random forest 0.0582003 2-Catboost 0.132004 1-Random forest 0.1542004 2-Catboost 0.0772005 1-Lightgbm(l)0.082-Lightgbm(l1)0.052006 1-Catboost 0.042006 2-Catboost-0.032007 1-Lightgbm(l)0.1252007 2-Lightgbm(l1)0.1782008 1-Catboost 0.192008 2-Xgboost(x1)0.1892009 1-Lightgbm(l)0.1692009 2-Catboost-0.0072010 1-Lightgbm(l1)0.02292010 2-Lightgbm(l1)0.0642011 1-Lightgbm(l)0.1342011 2-Random forest-0.0162012 1-Random forest 0.0442012 2-Xgboost(x1)0.12162013 1-Random forest 0.1792013 2-Catboost-0.062014 1-Catboost 0.2092014 2-Lightgbm(l1)0.062015 1-Xgboost(x1)0.2092015 2-Rndom forest 0.08482016 1-Random forest 0.1432016 2-Catboost 0.016可以尝试模型和功能选择,可以获得更好的结果。六、 KIRILL PARTKirill Romanov本次比赛的主要目标是开发一个模型,该模型将有助于使用提供的财务预测数据集和半年回报率来确定每个时段表现最佳的股票。我的策略是创建适合特定时期的不同模型,从而提供最佳结果。A、 方法最终解决方案由四组线性模型(四种场景)组成,这些模型是使用经典数据科学管道(见图2)构建的。两种方案之间的主要区别是功能工程步骤。我生成并测试了四组特征:建模阶段在所有场景中都很常见,包括以下步骤:1)从场景中提取所有特征12)为每个预测期训练具有不同特征组合的模型,并在验证数据集上检查结果。然后,在验证数据集Fig上选择具有bestSpearman得分的模型。2.

13
能者818 在职认证  发表于 2022-6-24 05:16:18
不同scenariosTABLE IIIifeature类型的管道a。分组基本特征B.技术指标o在最初的数据集中,我们每月都有匿名特征由于我们必须预测6个月的回报率,这些基本特征是聚合的o我使用了基本特征和标准的平均值o绝对值和百分比值o主要思想:当前时期的目标值可能是下一个时期的基本特征(例如,2002年下半年的预测回报率是2002年上半年的目标,但下半年的特征)o然而,我们无法将其与特定安全性联系起来。我们所能做的就是计算整个周期的平均值。此外,我们可以根据该值计算聚合技术指标:移动平均值、指数移动平均值、动量、变化率(见论文中的完整列表)o最后,我们可以根据这些聚合值C对周期中的每一行进行编码。合成特征D.PCAo作为基础,我使用groupedbasic特征(平均值)o然后,对于特征1的每个组合,从该子集中生成特征2新特征:o根据场景,生成不同的合成特征组合o在第一步,我生成合成特征o然后,使用python sklearn,我生成的组件解释了至少99%的方差,并将其用作特征3)使用不同的正则化参数(alpha)训练这些模型,并选择每个预测期验证数据集得分最佳的模型4)对所有场景重复步骤2-3 5)根据验证数据集得分最佳,从每个预测期的所有场景中找到最佳模型。2017年期间,1 2016年期间的最佳车型2使用了DFIG。3显示了所描述的算法:B.实验和结果使用上述方法训练模型后,我分析了最佳模型,并得到了一些有趣的结果:图3。

14
能者818 在职认证  发表于 2022-6-24 05:16:22
建模阶段的算法1)数据集中有少量性能最好的特征。公司分析师应仔细分析功能X17和X58。此外,如图4所示,X2、X1、X7的功能组合非常好。图4:。顶级性能特征2)基本特征的聚合、合成特征的使用和降维技术(PCA)的应用改善了预测模型。当我们无法捕捉到单一证券的动态时,技术分析的应用并没有帮助,如图5.3所示。没有明确的证据表明什么时间窗口期最适合预测。也许这是当前验证技术的结果:在每个预测期内,40%的数据丢失(图6)。C、 讨论在比赛期间,开发了一条用于选择、测试和评估模型的严格管道。因此,这种方法在第一轮中获得了前5名的解决方案,在最终得分中获得了前4名。然而,可以通过一些步骤来改进模型:图5。按类别划分的功能总数IG。6、窗口大小取决于预测周期1)取消匿名化股票动态。股票本身可以是非对称的,但如果我们可以在不同时期看到stockx的相同代码,我们可以在建模过程中包括序列模型,从而提高模型质量2)包括用于对未来时期的模型和RetainModel评分的保持数据。实际上,我们错过了每个预测期40%的数据,预测未来的周期II是一个问题。从个人投资者到机构投资者,识别表现极为积极和消极的股票非常重要。

15
可人4 在职认证  发表于 2022-6-24 05:16:26
基于标准化收益率和多个股票级别属性的数据,通过特征工程和特征选择过程,建立机器学习模型来预测组合中股票的真实排名,从而帮助获得最佳回报。由于最终模型的目标是在未来应用于看不见的数据,为此,这里的方法是从线性机器学习模型领域构建一个单一模型框架,以处理不同时间段的预测任务,这可以产生一种更普遍和持久的方法来解决此任务。基于2002年至2016年各时间段股票的真实排名和预测排名,使用包括斯皮尔曼相关性和NDCG在内的指标对模型进行比较后,最好的模型是线性支持向量机回归模型。A、 方法1)特征工程:在这项任务中,除了考虑原始的420个股票级属性外,还利用转换和特征工程构建了新的特征。

16
大多数88 在职认证  发表于 2022-6-24 05:16:29
对于新创建的特征,请参阅表IV。表IV新创建的特征特征解释X1~X70每个原始特征6个月的所有周期平均值X1~X70每个原始特征6个月的所有周期平均值X1~X70标准所有周期每个原始特征6个月的标准偏差X1~X70最大每个原始特征6个月的所有周期最大值X1~X70最小每个原始特征的所有周期最小值原始特征从6个月x1到X70更改所有周期从每个原始特征的第一个值更改为最后一个值x1到X70更改第二个最后一个到最后一个所有周期从第二个最后一个值更改为每个原始特征的最后一个值x1到X70范围每个原始特征的所有周期范围从6个月x1到X70平均差异所有周期每个原始特征差异的平均值从6monthsX1~X70中位数差异所有时段6个月内每个原始特征差异的中位数X1~X70标准差异所有时段6个月内每个原始特征差异的标准偏差X1~X70最大差异所有时段6个月内每个原始特征差异的最大值X1~X70最小差异所有时段6个月内每个原始特征差异的最小值2)培训框架设置和功能选择:首先,由于该方法是使用单一模型框架在不同的历史数据组上构建模型,并对不同的时间段进行预测,因此应综合考虑每个培训和验证时间段组的功能和目标变量(此处的“Norm Ret F6M”列)之间的关系。验证时间段从2002年开始至2016年。

17
可人4 在职认证  发表于 2022-6-24 05:16:32
在上述前提下,是否将验证时间段之前的所有历史数据作为训练数据,或者仅仅将一定长度的时间段作为训练数据也起到了重要作用。第二,为了解决过度拟合的问题,为每个模型选择最佳特征集,而不是为创建的所有特征选择最佳特征集是一个必要的过程。在此,单特征模型的性能和特征内的相关性将作为决策依据。a) 每个训练和预测时间段组的特征和目标变量之间的关系以及训练时间段长度的确定:对于每个特征,使用从2到30的多个时间段长度和所有时间段计算该特征和目标变量之间的Pearson相关性,表示验证时间段之前的最新时间段数。然后使用验证时间段计算每个特征和目标变量之间的皮尔逊相关性。在前两次计算之后,计算每个训练和验证时间段组下目标变量和每个特征内不同相关信号的数量。然后根据与目标变量相关的不同符号的数量对每个特征进行排序,从最小到最大。为了找到构建模型的最佳设置,对于每个时间段(从2到30以及所有时间段),根据与目标变量相关的不同符号数,使用前20个特征中的每一个构建简单线性回归模型。最后,基于Spearman相关性和NDCG的平均值进行比较,建议使用验证前的最近10个周期来确定特征与目标变量之间的关系。

18
何人来此 在职认证  发表于 2022-6-24 05:16:35
对于培训设置,使用验证时间段之前的所有历史数据作为培训数据来完成任务是一个更好的选择。b) 为每个模型选择最佳特征集:建立训练框架后,首先根据与目标变量相关的不同符号的数量对特征进行排序,然后删除与目标变量相关的10个以上不同信号的特征。对于其余特征,构建了每个特征和模型只有一个特征的模型,使用的模型与下一部分中所示的相同。在每种模型下,性能基于斯皮尔曼相关性平均值且NDCG小于0的特征首先被去除,然后从最佳到最差进行排序。接下来,使用每个训练时间段的平均值计算每个剩余特征内的皮尔逊相关性。最后,在移除Pearsoncorrelation等于或大于0.8的特征后,从最不重要的特征开始,至少有一个特征,然后为每个模型生成临时最优特征集。3) 建模:对于建模,对从上一步提取的特征应用多个线性机器学习模型。为了优化性能,进一步选择不同数量的顶级特征,并根据每个验证时间段的Spearman相关性和CG的平均值,通过其性能进行测量。单个模型的最佳结果将显示在结果部分。有关测试的型号,请参阅表V.B。

19
nandehutu2022 在职认证  发表于 2022-6-24 05:16:38
实验和结果1)将每个模型的性能与最佳特征集进行比较:在进一步选择建模阶段模型参考中使用的最佳特征集V模型后,线性回归[5]岭回归[6]岭回归与内置交叉验证[1]贝叶斯岭回归[3]胡伯回归[4]线性支持向量机回归[7]和一些设置包括每个模型的超参数,最好的模型是线性支持向量机回归,前26个特征,NAs使用0。2002年至2016年各预测期的Spearman相关性和NDCG平均值为0.1045。每个模型的结果显示在表VI中:表VI每个模型的性能TopFeatures计算性能数字(Spearmancorrelation和NDCG avg.)线性回归26中值0.0999岭回归26中值0.0985带内置交叉验证的岭回归26中值0.0957贝叶斯岭回归26中值0.0933 Huber回归24中值0.0996线性支持向量机回归26 0 0.1045根据表六,然后将最佳模型设置用于训练多个模型,作为模型,对2002年至2017年的数据进行最终预测,训练列显示0。C、 讨论本节提出的方法可归纳为以下四个部分:(1)构建考虑金融领域特征的特征,(2)构建适当的培训环境,(3)选择具有有意义预测能力的特征,(4)使用线性模型的单模型设置。上述结果表明,实际上还有一些改进空间。

20
kedemingshi 在职认证  发表于 2022-6-24 05:16:42
考虑到财务预测任务背后的复杂性,对于未来的工作,基于探索性数据分析(EDA)中更详细的观察结果,考虑交互等因素,生成更多的特征,并实现更复杂的模型,包括基于树的模型和神经网络,并采用集成技术解决过度匹配问题,这将是一个很好的开始尝试的地方。八、股票市场是人类所知最不稳定的领域之一,预测股票价格一直是一项非常具有挑战性的任务。在这项使用深度学习技术的工作中,我们利用提供的财务预测数据集和半年收益率,解决了在每个时间段识别最佳表现股票的问题。所使用的框架分为四个部分,我们相应地将框架的描述分开。首先,我们通过输入NA值,然后将其重塑为6个时间步的序列来预处理数据。第二部分由卷积层组成,第三部分由递归层组成,这两个块是框架的主要构建块。第四块和最后一块是完全连接的层,用于回归任务,以预测六个月每个时间段的回报。框架如图7所示。图7:。框架框图a。方法1)预处理:框架的输入是6个月内70个属性的序列。因此,在将数据放入模型之前,我们先用零填充NA值,然后将属性重塑为1 x 6 x 70.2)个卷积层:卷积层在框架中的作用是为每个时间步提取更高维的特征,这些特征可供递归层使用。一维卷积层用于学习输入序列的高层表示。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 05:02