楼主: 能者818
1377 17

[量化金融] 预测股票横截面收益的深度学习 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5640
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-2 20:49:06 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Deep Learning for Forecasting Stock Returns in the Cross-Section》
---
作者:
Masaya Abe, Hideki Nakayama
---
最新提交年份:
2018
---
英文摘要:
  Many studies have been undertaken by using machine learning techniques, including neural networks, to predict stock returns. Recently, a method known as deep learning, which achieves high performance mainly in image recognition and speech recognition, has attracted attention in the machine learning field. This paper implements deep learning to predict one-month-ahead stock returns in the cross-section in the Japanese stock market and investigates the performance of the method. Our results show that deep neural networks generally outperform shallow neural networks, and the best networks also outperform representative machine learning models. These results indicate that deep learning shows promise as a skillful machine learning method to predict stock returns in the cross-section.
---
中文摘要:
许多研究已经通过使用机器学习技术(包括神经网络)来预测股票收益率。近年来,一种称为深度学习的方法在机器学习领域引起了人们的关注,该方法主要在图像识别和语音识别方面取得了很高的性能。本文在日本股市的横截面上实现了深度学习来预测一个月前的股票收益率,并对该方法的性能进行了研究。我们的结果表明,深度神经网络通常优于浅层神经网络,最好的网络也优于典型的机器学习模型。这些结果表明,深度学习作为一种熟练的机器学习方法,有望预测横截面的股票收益率。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Deep_Learning_for_Forecasting_Stock_Returns_in_the_Cross-Section.pdf (561.75 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习 横截面 Applications Econophysics Quantitative

沙发
可人4 在职认证  发表于 2022-6-2 20:49:12
日本东京Masaya Abea和Hideki NakayamaNomura资产管理有限公司股票收益预测的深度学习-abe@nomura-上午。co.JP东京大学,Japannakayama@nlab.ci.i.u-东京。ac.JP摘要。许多研究已经通过使用机器学习技术(包括神经网络)来预测股票收益率。近年来,一种称为深度学习的方法在机器学习领域引起了人们的关注,该方法主要在图像识别和语音识别方面取得了很高的性能。本文在日本股市的横截面上对一个月的领头股票收益率进行了深度学习预测,并对该方法的性能进行了研究。我们的结果表明,深度神经网络一般优于浅层神经网络,最好的网络也优于典型的机器学习模型。这些结果表明,深度学习作为一种熟练的机器学习方法有望预测横截面的股票收益率。关键词:深度学习、股票收益率、横截面、预测、神经网络、工业应用。1简介股票回报的可预测性是投资者最关心的问题之一。特别是,许多作者试图通过使用各种因素来解释股票回报的横截面,例如收益-价格比、公司规模和股价动量,以及使用这些因素的有效性【1-3】。相反,投资者自己必须决定如何处理和预测回报,包括这些因素的选择和权重。做出投资决策的一种方法是依赖机器学习模型的使用。这是一种有监督的学习方法,使用多个因素将股票收益率解释为输入值,将未来股票收益率解释为输出值。

藤椅
nandehutu2022 在职认证  发表于 2022-6-2 20:49:14
近年来,深度学习因其在图像识别和语音识别等领域的高性能而引起了机器学习领域的关注[4,5]。深度学习是一种具有多层次表征的表征学习方法。该方法通过许多简单但非线性的模块传递数据。数据传递此处表达的观点是我们自己的观点,不一定反映野村资产管理公司的观点。任何错误和不足都是我们自己的。通过比传统三层神经网络更多的层。这使得计算机能够从简单的概念中构建复杂的概念[4,5]。通过输入多个因素的数据并将其传递到多个层次,deeplearning可以提取有用的特征,增加代表性,增强性能,并提高对未来股票收益率的预测精度。目前,很少有应用深度学习来报告股票回报的可预测性。这些应用的积极成果可以肯定地说是扩展了深度学习技术在多个领域的多功能性。在本文中,我们使用深度学习来预测日本股市交叉部分提前一个月的股票收益率。我们根据摩根士丹利资本国际日本指数成分股过去五个时间点的25个因素(特征)的信息计算预测股票回报率(分数)。作为绩效的衡量标准,我们使用实际样本外收益与其预测得分、方向准确性和简单的长短组合策略绩效之间的rank相关性。

板凳
何人来此 在职认证  发表于 2022-6-2 20:49:18
我们将其与传统的三层神经网络、支持向量回归和随机森林作为代表性的机器学习技术进行了比较。2相关工作关于股票收益可预测性的许多研究都是在神经网络上进行的[6,7]。其中大部分是对股市回报的预测;然而,使用本文中讨论的神经网络对个别股票收益率的预测也被进行了。例如,Olson和Mossman[8]试图使用61个会计比率作为输入值预测2352家加拿大公司的一年期aheadstock回报,并报告称神经网络的表现优于传统回归技术。作为对新兴市场的应用,Cao等人[9]预测了中国股市的股票回报。他们表明,神经网络优于线性模型。除此之外,Kryzanowski等人【10】发现,神经网络通过使用财务比率和宏观经济变量,正确地将72%的正/负回报分类,以预测一年前的股票回报。由于对这项技术的高度重视,最近对深度学习进行了研究。Krauss等人[11]使用三种不同的机器学习模型、深度神经网络、梯度增强树和随机森林来预测标普500成分股的一天前股票回报。结果,他们表明,将这三个预测组合为一个等权重的整体,其表现优于每个单独的模型。在每种模型中,随机森林的表现优于深度神经网络和梯度增强树。相反,他们表示,仔细的超参数优化仍然可以为TuningIntentive深层神经网络产生有利的结果。在股票市场之外,Dixon等人。

报纸
能者818 在职认证  发表于 2022-6-2 20:49:21
[12] 试图预测43 cm已上市商品和外汇期货5分钟中间价的工具运动方向。对于高精度的测试,他们显示了68%的准确率。此外,在一个简单交易策略的应用中,最佳工具的夏普比为3.29,这表明其预测能力很强。这些研究是针对短期投资期进行的,没有使用财务变量作为输入值。本文使用市场和财务数据的乘数作为输入值,预测了一个月前的股票收益率。3数据和方法3.1摩根士丹利资本国际日本大学数据集我们为摩根士丹利资本国际日本指数成分股编制数据集。摩根士丹利资本国际日本指数包括日本市场的大中型板块。截至2017年1月,该指数由319个组成部分组成,约占日本自由浮动调整后市值的85%[13]。该指数还经常被用作海外机构投资者投资日本股票的标志。我们使用表1中列出的25个因素。这些在实践中使用相对频繁。在计算这些因素时,我们从WorldScope、汤森路透、I/B/E/S、EXSHARE和MSCI获得了必要的数据。实际财务数据来自WorldScope和Reuters Fundamentals(WorldScope优先)。考虑到投资者实际可用的时间,我们有四个月的延迟。预测数据来自汤森路透估计和I/B/E/S估计(汤森路透优先)。该数据用于计算从2号到8号的系数和NOS。16和17。从1990年12月至2016年11月,每月(月末)计算系数。请注意,不计算NOS的系数。18和24。

地板
能者818 在职认证  发表于 2022-6-2 20:49:24
我们直接使用MSCI Barra JPE4模型中的18号“历史贝塔”和24号“预测特定风险”。每月(月末)获得带股息的股票回报。表1:。因素列表。否。系数否。FactorBook to market Ratio Investment Growth The Arning to price Ratio Investment to assets Ratio Vidend yieldEPS Revision(1个月)Sales to price Ratio EPS Revision(3个月)Cash flow to price Ratio BetareReturn on equityMarket Value return on assetPast stock return(1个月)return on invested Capital to Asset stock return(12个月)Accountalsvolativity Sales to total assets Ratio KewnratioIdiosyncratic volatilityEquity Ratiotrating turnoverTotal asset growth3.2问题定义将问题定义为回归问题。例如,对于T月(月末)MSCIJapan指数成分中的股票i,表1中列出的25个因素由xi,T定义Rand输入值由vi,T定义  {xi,T,xi,T-3,xi,T-6,xi,T-9,xi,T-12}在三个月的时间间隔内,对过去五个时间点的25个因素进行分析。产值由下个月的股票收益率ri,T+1定义R、 作为更具体的示例,图1示出了2001年12月一组训练数据的股票i的输入值和输出值之间的关系,即T+1。该集合包括截至2001年11月(T)摩根士丹利资本国际日本指数成分股的所有股票。输入值如下:2001年11月(T),2001年8月(T-3) ,2001年5月(T-6) ,2001年2月(T-9) ,和2000年11月(T-12) ,作为过去五个时间点的因素。产值是2001年12月的实际股票回报率(T+1)。

7
大多数88 在职认证  发表于 2022-6-2 20:49:29
对于数据预处理,将执行重缩放,以便每个输入值最大为1(最小0)通过在每个时间点按股票普遍性按升序排列每个输入值,然后除以最大排名值。对于输出值ri,T+1,类似的重缩放是一种转换为横截面股票收益率(分数)的方法。请注意,假设vi、Tand ri、T+1是数据预处理后的值。此过程扩展到使用最近N个月的训练数据,而不是最新的训练数据集(一个训练集)。我们使用均方误差(MSE)作为损失函数,并在T+1处训练模型时定义MSET+1,如下所示:    TNTt UITTITITITITTFRK121,1,1;1θvMSE(1)在(1)中,K是所有训练示例的数目。Utis摩根士丹利资本国际日本指数universeat t t.θt+1是通过求解(1)计算的参数,并形成函数形式 .f、 图1:。股票i来自2001年12月的一组培训数据。系数:2001年11月25日至2001年8月(地面实况)2001年5月至2001年12月2001年2月至2000年11月至2001年12月输入:125 dim。输出:1 dim。3.3培训和预测我们使用过去10年中最新的120组培训来培训模型。为了计算预测,我们在训练后将最新的输入值替换到模型中。从时间T+1开始,通过(2)将vi,T+1代入函数,计算时间T+2时股票i的横截面预测股票收益率(得分 .带参数*1的fin(2)Tθ,其中*1Tθ由(1)和N计算得出 120: *11,2,;TTiTifScoreθv(2)例如,为了计算从2001年12月(T+1)到2002年1月(T+2)的预测分数,输入值如下:2001年12月(T+1),2001年9月(T-2) ,2001年1月(T-5) ,2001年3月(T-8) ,2000年12月(T-11) ,作为过去五个时间点的因素。

8
nandehutu2022 在职认证  发表于 2022-6-2 20:49:32
摩根士丹利资本国际日本指数成分自2001年12月起(T+1)。然而,对于缺少63个或更多输入值的股票,预测分数不会计算出来,这大约是输入值总数(125)的一半。对于缺失62个或更少输入值的股票,每个缺失值将由未缺失股票的中值代替。对于这一系列过程,通过提前一个月滑动并执行一个月的预测来更新模型。预测期为15年:2002年1月至2016年12月(180个月)。图2中示出了处理流程的图示,其显示了每个时间点的预测和训练数据之间的关系。例如,“训练:120集”中的2001年12月与图1关联,“预测:1集”中的2002年1月表示从2001年12月到2002年1月的预测。箭头表示模型每月更新一次,数据提前一个月滑动。3.4性能测量与直接使用损失函数值作为性能测量相比,weFig。2、训练预测集。预测:1992年1月1日2001年12月2002年1月预测:1套→1992年2月2002年1月-2002年2月→            →         预测:1套→2006年12月2016年11月2016年12月T雨:120集T雨:120集T雨:120集→使用秩相关系数(CORR)和方向精度(Direction),因为它们是比损失函数更相关的性能度量。此外,通过与支持向量回归和随机森林的比较,评估了简单的长短组合策略的性能。在实践中,这些都是用来评估横截面股票收益率表现的方法。

9
能者818 在职认证  发表于 2022-6-2 20:49:35
实际样本外收益(下个月的收益)与预测得分之间的CORR-isSpearman秩相关系数,用于衡量整个预测股票的预测精度,不包括个别股票收益的异常值的影响。在实际投资中,有许多情况下,股票数量仅限于预测分数较高和预测分数较低的股票。我们构建了一个由预测得分最高和最低的股票组组成的投资组合。方向的计算方法是将预测分数高且高于下个月股市回报率横截面中值的顶级股票总数和预测分数低且低于主题的底层股票总数除以顶级和底层股票总数。长期-短期投资组合策略是一种净零投资策略,它以相等的权重购买顶部股票,以相等的权重出售底部股票。为了划分顶部和底部股票组,我们制定了两种类型的投资组合:三级投资组合和五级投资组合。这些性能指标在预测期内每月计算一次。例如,在2002年1月的评估起点(预测:图2中的1),这些度量值是根据2001年12月至2002年1月的2002年1月预测得分和2002年1月的实际样本外回报计算得出的。考虑到这些评估结果的稳定性,有必要考虑每个类别中至少有几十个成员的astock universe。表2显示了2001年12月至2016年11月评估期内股票市场的月平均数,三分位数和五分位数的顶部和底部股票。

10
能者818 在职认证  发表于 2022-6-2 20:49:38
股票总数超过300股;此外,对于五分位数,顶级和低端股票的总数超过100只。因此,我们认为股票宇宙的大小是足够的。3.5比较模型神经网络。本文研究的所有神经网络都是完全连接的前馈神经网络。表3显示了所有16种类型的神经网络。“隐藏层”列中的数字表示单元数。对于多层,层编号用连字符连接。我们总共检查了表2。股票数量(月平均)。AllTertileQuintileTopBottomTopBottom336.5112.5111.867.766.98深度神经网络(DNN)模式,8层(DNN8)和5层(DNN5)。辍学率统一设置为50%。每层中的单元数设计为随着层越来越接近输出层而减少。DN5的图案设计用于排除DNN8的重复层。对于传统的三层架构,共有8个模式,4个模式的退出率设置为50%(NN3\\u DO),4个模式的退出率设置为0%(NN3)。对于NN3\\u DO,调整隐藏层的单元数,以便近似等于DNN8的每个图案的参数数(所有权重包括偏差)。例如,NN3\\u DO\\u 1的参数总数为30989,其中隐藏层中有244个单元。这大约等于DNN8\\U 1的30931参数。对于NN3隐藏层中的单元数,我们从DNN8的所有隐藏层中依次选择4个大单元。作为交集,我们使用双曲正切作为激活函数,Adam【14】用于优化算法。小批量大小是每个时间点(大约300)的库存宇宙大小,有100个时代。我们使用TensorFlow实现。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 12:35