楼主: nandehutu2022
1364 17

[量化金融] 预测债券价格的更好模型的机器学习 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-5-31 11:10:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Machine Learning for Better Models for Predicting Bond Prices》
---
作者:
Swetava Ganguli, Jared Dunnmon
---
最新提交年份:
2017
---
英文摘要:
  Bond prices are a reflection of extremely complex market interactions and policies, making prediction of future prices difficult. This task becomes even more challenging due to the dearth of relevant information, and accuracy is not the only consideration--in trading situations, time is of the essence. Thus, machine learning in the context of bond price predictions should be both fast and accurate. In this course project, we use a dataset describing the previous 10 trades of a large number of bonds among other relevant descriptive metrics to predict future bond prices. Each of 762,678 bonds in the dataset is described by a total of 61 attributes, including a ground truth trade price. We evaluate the performance of various supervised learning algorithms for regression followed by ensemble methods, with feature and model selection considerations being treated in detail. We further evaluate all methods on both accuracy and speed. Finally, we propose a novel hybrid time-series aided machine learning method that could be applied to such datasets in future work.
---
中文摘要:
债券价格反映了极其复杂的市场互动和政策,因此很难预测未来的价格。由于缺乏相关信息,这项任务变得更具挑战性,准确性并不是唯一的考虑因素——在交易情况下,时间至关重要。因此,在债券价格预测的背景下,机器学习应该既快速又准确。在本课程项目中,我们使用一个数据集来描述大量债券的前10次交易以及其他相关的描述性指标,以预测未来的债券价格。数据集中的762678份债券中的每一份都由61个属性描述,其中包括一个地面真实交易价格。我们评估了各种用于回归的监督学习算法的性能,然后是集成方法,并详细讨论了特征和模型选择问题。我们进一步评估了所有方法的准确性和速度。最后,我们提出了一种新的混合时间序列辅助机器学习方法,可以在未来的工作中应用于此类数据集。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--

---
PDF下载:
--> Machine_Learning_for_Better_Models_for_Predicting_Bond_Prices.pdf (659.09 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 债券价格 Applications Mathematical interactions

沙发
何人来此 在职认证  发表于 2022-5-31 11:10:10
预测债券价格的更好模型的机器学习Wetava Ganguli,Jared Dunnmon{swetava,jdunnmon}@cs。斯坦福大学。由于缺乏相关信息,EduAbstracts变得更具挑战性,准确性不是唯一的考虑因素——在交易情况下,时间至关重要。因此,在债券价格预测的背景下,机器学习应该既快速又准确。在本课程项目中,我们使用一个数据集来描述大量债券的前10次交易以及其他相关的描述性指标,以预测未来的债券价格。数据集中的762678份债券中的每一份都由61个属性描述,其中包括一个地面真实交易价格。我们评估了用于回归的各种监督学习算法的性能,然后是集成方法,并详细讨论了特征和模型选择考虑因素。我们进一步评估了所有方法的准确性和速度。最后,我们提出了一种新的混合时间序列辅助机器学习方法,可以在未来的工作中应用于此类数据集。一、 简介关键问题:缺乏有关股票交易员可用信息量的交易信息。

藤椅
可人4 在职认证  发表于 2022-5-31 11:10:13
虽然股票交易对那些聘请收费数据承包商的人来说是可用的,但与可用信息相比,导致了当前的状态,即许多债券价格实际上已经存在了几天,不能准确地反映最近的市场发展情况[1]。我们的目标:债券交易公司Benchmark Solutions提供的交易历史、中间计算和历史价格(在Kaggle上),为了更准确地预测最新情况,通过深入调查现有机器学习模型的空间并结合时间序列分析的方法,制定策略,有效利用为债券价格预测提供的数据。策略和方法:特征选择:这项任务的一个重要方面是创建类平衡训练和测试数据集,同时进行idenponent分析(PCA)和相关分析。监督学习方法:评估像主成分集成(Principal ComponentIntegration)方法这样的方法的可行性:因为我们在兰多姆森林中有一个回归问题,可以减少过度匹配,并潜在地利用数据集的巨大规模。混合时间序列方法根据过去十年中五个不同量的历史数据,我们研究了使用时间序列(TS)增加或减少特征空间的可能性,或者提供具有额外解释力的新特征,保留解释力。神经网络:高度非线性数据,充分考虑神经元。二、762678种债券的探索性数据分析:3个名义、12个离散序数、1个观察权重和45个连续(比率)属性,包括基本真实交易价格。

板凳
能者818 在职认证  发表于 2022-5-31 11:10:16
预测债券的债券价格ID(名义离散属性)、债券的分类ID(名义离散属性)、权重/重要性离散二元变量)、交易发生后的秒数(即交易商之间的秒数),以及基于隐含价值的公平价格估计,即“基于曲线的价格”此外,数据集还包括基于曲线的价格(连续比率属性)。相关属性:降维。当每个变量的自相关平均自相关在第一个滞后期之后非常低(ρ<0.3)时,可以观察到类似结论的其余部分,这表明每个变量在每个时间段都贡献了唯一的信息。分类属性的处理:斯坦福大学玉米、大麦和黑麦集群的计算时间在类型3交易中占36%,在类型4交易中占43%,对此表示感谢。因此,这三种贸易类型的抽样相对统一。将其考虑在内,使其达到阶级平衡。此外,这些分类变量在它们是名词性或序数的情况下会得到适当的处理。三、 交叉验证、特征选择和模型评估度量交叉验证策略:选择和创建培训和测试数据集分别为:1。统计上一致的时间序列预测2。分类属性具有非均匀分布3。对于债券价格预测而言,债券重要性明显不统一。正确地预先提高投资组合的优先级也很重要。由于上述问题,培训集将保持班级平衡。相反,为了利用所有给定的数据,我们使用70-30 hold交叉验证。

报纸
kedemingshi 在职认证  发表于 2022-5-31 11:10:20
因此,我们使用以下算法创建重量平衡训练和测试集。交叉验证算法:步骤1并创建5个权重平衡训练和测试集实例。步骤II培训和测试集。第三步,5次独立运行中的每一次。第四步评估指标的最终值是这5个值的平均值。为了证明我们的集合确实是重量平衡的,图1.0 5中的wetraining和测试集合Bondstf的重量为1000.51Bondstraining集合0 5 1000.51Bondstf的重量为t集合图1:数据集。模型评估指标:L模型评估指标预测样本加权误差(WEPS),定义为:WEPS=∑mi=1wi(Y真的-Y预测)∑mi=1wi(1)验证算法。统计意义:所有模型的EEMM数据集和测试数据集相同,sayn,wed=e-e d的方差可计算为σd≈σd=n(e(1-e) +e(1- e) ()~ O(10-6) (2)在我们的案例中,95%置信区间由(dt=真差)dt=d±1.96^σd(3)给出。重要的是,这意味着Wepssignificant的任何改进。特征生成和选择:特征选择和生成处理如下:相关分析:mative。监督学习中的主成分分析:主成分分析在全特征集的全数据集上运行。集成方法的评分函数:(RF)用于特征排序。RF将选择特征一个单独的子空间(称为随机子空间)。WeXperformance。然后,我们将性能分数指定为xxScore。我们的搜索方法是递归的:例如,如果我们在第一轮中下降了最差的20%,我们会在接下来的所有轮中这样做,直到通过数值实验获得所需的特征数。四、

地板
何人来此 在职认证  发表于 2022-5-31 11:10:23
本文中引用的监督学习结果的模型可以在图4中找到。广义线性模型:研究了监督学习的几种模型。使用两个不同的链接函数以及这些不同情况下的全部特征和测试错误进行mented表明,正态变化似乎是数据的最佳特征。为了改善这些结果,进行了加权最小二乘法(WLS),在回归中对点进行了最重要的处理。大约1美元的错误背景)。主成分回归:提取PCA算法中使用的变换,并将其直接应用于测试数据。以这种方式转换数据后,我们可以像往常一样运行GLM模型。明确证实,回归系数的反求转换足够充分,尽管前几个主要成分往往能最好地解释输入的方差,但12秒内的误差为0.9191美元,这是一个3特征WLS,使用该金融领域经常遇到的海量数据集。支持向量回归:回归(SVR)预测债券价格,但发现模型参数调整有效。具体而言,LibSVM包端口向量。无论如何,鉴于这些模型估计时间,在关键SVR模型项目上执行参数扫描,因此不会报告该方法的结果。回归树:c改变每个节点错误所需的数据样本数量等),(iii)改变每个节点随机抽样的预测值数量以做出决策,以及(iv)控制这些情况下的减少。图4.0 10 20 30 40 50 60012345678 PCA特征测试错误数,$WLS测试错误与PCA特征数图2:WLS WEPS与PCA特征数的对比,可以找到测试条件和代表性结果的完整列表。五、

7
可人4 在职认证  发表于 2022-5-31 11:10:28
集合方法中的模型根据我们的交叉验证算法计算。有回归树的随机森林:非常昂贵。此外,他们通常会生产略高于1美元的WEPSof,这甚至低于像GLMs这样的简单模型。已经试验了各种方法来减少每个弱学习者的过度匹配并加速。然而,这些方法都不能提高随机森林的性能。图4所示的训练和测试错误以及执行时间是我们进行的实验的特征。LS-Boost和RT作为弱学习者:由于树中观察到的J终端节点的指数惩罚,表现良好,这是可以针对给定数据集进行优化的关键参数。Hastie等人评论道≤ J≤对Jin这个系列的选择相当不敏感。因此,我们j=森林,因为WEP停滞在80美分左右,在执行交叉验证后,计算训练集和测试集,如图4的汇总表所示。六、

8
大多数88 在职认证  发表于 2022-5-31 11:10:32
混合时间序列方法的模型用于预测新价格的方法可以提供五个时间序列中包含的大量历史数据,这将允许我们创建一组时间序列预测,可以用来扩充我们的功能集,甚至以简洁的方式替换所有历史功能。在大多数情况下,出于简洁的目的,datasetreasonable预测的一个问题是显而易见的,下面将对这些复杂的时间序列模型进行详细描述,并提供了详细的模型规范参考。协整模型如果这些序列及其滞后的某些线性组合是使用历史数据在后期时间序列的统计平稳子集,则可以认为这些序列是协整的。确定是否使用Engle-Granger检验的典型统计检验【4】。协整需要两个时间序列yt和zt的时间平稳线性组合,例如yt- βzt=ut,(4)不固定。如果我们事先知道,可以使用诸如Dickey-Fuller测试等已建立的统计方法来评估平稳性[]。然而,在这种情况下,我们使用普通最小二乘法进行估计,并分析估计序列的平稳性。此过程的第二次迭代,可用于评估协整关系的存在。我们在Matlab中对近100万份债券的时间序列数据进行了Engle-Granger(E-G)测试,这些债券都是合理的重要边界。

9
能者818 在职认证  发表于 2022-5-31 11:10:36
换言之,这一结果表明,两个模型之间不存在协整关系,因此很难指定一个基于协整的模型。然而,对其他历史数据的数据访问占了相当大的比例,因此很有可能将预测输入到这里讨论的机器学习模型中【4】。自回归滑动平均(ARMA)模型预测是基于完成此任务的方法来预测变量的未来值,ARMA模型因其简单直观而非常常见。尤其是捕捉时间序列行为。第一个可以通过考虑时间序列变量的最近值可以很好地预测当前值来总结。这是模型捕捉到的,它捕捉到了这样一个事实,即前一个周期的大冲击不仅会影响该周期,而且会影响ytφiθjT AR模型et中的周期,yt=p∑i=1φiyt-i+et+q∑j=1θ射流-j、 (5)PQPQARMA(1,1)模型可能适用于该数据。考虑到协整分析的结果,以及大多数观测值允许对每个观测值独立使用ARMA(1,1)模型进行统计的事实,即贸易价格和曲线价格结果之间的差异。我们的算法如下:每个时间点的交易和曲线价格差异(ii)平均ARMA参数,为该债券类型的交易和曲线价格差异创建平均TS模型,该模型预测预测期内每种债券类型的交易和曲线价格之间的差异(iv)将该预测变量用作GLM中的新特征型号电子标签。理论上,该系列应比图4中单独称为“9特征WLS”的债券识别号系列具有更大的解释力,因为它包含了时间序列数据。

10
kedemingshi 在职认证  发表于 2022-5-31 11:10:41
我们举例说明ccccc表明该变量确实向模型中添加了新信息,而不是简单地导致过度拟合。重要的是,如果预先计算了每种债券类型的时间序列模型,那么它就是简单GLM中债券价格演变的信息。七、神经网络(Neural Networkslayer)使用Levenberg-Marquardt训练的神经网络在我们的数据集上训练和测试错误以及执行时间,在短短2小时内将测试错误减少到73美分。当网络大小超过20个神经元时,WEPS会逐渐减少。!“#”$%&”(“*%+”$%,“$”(“../\'0%+%!\'0(%,$-。”*%1*-02%&3.4-0”%5“3$0-02%!!!!!&“/63/\'0%30(%789)。/6”*%“\\;$%!&\'()*+,!”(*!-.(“-+*(/0*%!12!”!),31,+“$4\'5!%*”(+.!\\6!+(“%/$7!/$6#)(&\'4#$8!9--3(“+*52!”:(/-/$7!1#$,!(*;3/(*,!“!%*+”)/5*!)$#<5*%7*#6号&354:5*!:\'(\'&*+*(,=!<./-.!/,!%/>-35+!+;!\'-./*?*!/$!+./,!-\\$+*@+8!!:3;3%,$\'“***-02%<;$3;”2=%30(%>$$\'$%&;;$-.%A+\'$6#)(!B$/?*(,/+2!A<*+\'?\'!C\'$735/=!D\'(*%!E3$$&#$!?@;@$%A\'$B%C\'0.)@*-\'0*%:3;3*“;%30(%D”=%C43))“02”*%FA!啊!I’-./$*!J*\'($/$7!!B,*!+*!*!+*-.$/;3*,!\'$%!\'57#(/+.&,!\\35; 6!&\'-./$*!5*,($/$7!\\$!\',*+!\\35; 6!%,-(/1/$7!+(“%*!/,+)(/,=!/$+*,=!/$+*(&*%/“+*!*!”#$,=!\'$%!./,+#(/-\'5!;3\'$44*,!6(#&!*$-.&()!A#534#$,=!\'!1#$%!+(\'%/$7!K(&=!/$)(*(!+)!&#(*!)--3(\'+*52!:(*/-+)!3:L+。#L%\'+*!1#$%!:(/-*,!3,/$7!%+\'!+.+!<35%!1*!?/\'15*!+?/\'1+\'/$!\'+!\'!:\'(4-35\'(!&&#&&$+!/$!4&*8!7@$%E\'3)F%!D“=%,$\'8)”GF%!! MN!9O(/13+*,!\\$!PMG=MPQ!1 \\$%,!\'5 \\$7!</+)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 01:34