楼主: nandehutu2022
1281 35

[量化金融] 股市预测中多种复杂数据的聚合:一个 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-10 03:02:16 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Aggregating multiple types of complex data in stock market prediction: A
  model-independent framework》
---
作者:
Huiwen Wang, Shan Lu and Jichang Zhao
---
最新提交年份:
2018
---
英文摘要:
  The increasing richness in volume, and especially types of data in the financial domain provides unprecedented opportunities to understand the stock market more comprehensively and makes the price prediction more accurate than before. However, they also bring challenges to classic statistic approaches since those models might be constrained to a certain type of data. Aiming at aggregating differently sourced information and offering type-free capability to existing models, a framework for predicting stock market of scenarios with mixed data, including scalar data, compositional data (pie-like) and functional data (curve-like), is established. The presented framework is model-independent, as it serves like an interface to multiple types of data and can be combined with various prediction models. And it is proved to be effective through numerical simulations. Regarding to price prediction, we incorporate the trading volume (scalar data), intraday return series (functional data), and investors\' emotions from social media (compositional data) through the framework to competently forecast whether the market goes up or down at opening in the next day. The strong explanatory power of the framework is further demonstrated. Specifically, it is found that the intraday returns impact the following opening prices differently between bearish market and bullish market. And it is not at the beginning of the bearish market but the subsequent period in which the investors\' \"fear\" comes to be indicative. The framework would help extend existing prediction models easily to scenarios with multiple types of data and shed light on a more systemic understanding of the stock market.
---
中文摘要:
成交量的日益丰富,尤其是金融领域的数据类型,为更全面地了解股市提供了前所未有的机会,并使价格预测比以前更加准确。然而,它们也给传统的统计方法带来了挑战,因为这些模型可能会被限制在某种类型的数据中。为了聚合不同来源的信息并为现有模型提供无类型功能,建立了一个混合数据情景下的股市预测框架,包括标量数据、组合数据(饼状)和函数数据(曲线状)。所提出的框架与模型无关,因为它就像是多种类型数据的接口,可以与各种预测模型相结合。通过数值模拟验证了该方法的有效性。关于价格预测,我们通过该框架整合了交易量(标量数据)、日内收益率序列(功能数据)和来自社交媒体的投资者情绪(组合数据),以有效预测市场在第二天开盘时是上涨还是下跌。进一步证明了该框架的强大解释力。具体而言,我们发现,在熊市和牛市之间,日内收益率对以下开盘价格的影响不同。而且,投资者的“恐惧”并不是在熊市开始时显现出来的,而是在随后的一段时间里显现出来的。该框架将有助于将现有预测模型轻松扩展到具有多种数据类型的情景,并有助于更系统地了解股市。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
PDF下载:
--> Aggregating_multiple_types_of_complex_data_in_stock_market_prediction:_A_model-i.pdf (781.18 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:复杂数据 股市预测 Applications Quantitative epidemiology

沙发
可人4 在职认证  发表于 2022-6-10 03:02:20
在股市预测中聚合多种类型的复杂数据:模型独立框架Wanga,b,Shan Lua,c,Jichang Zhaoa,b,*北京航空航天大学经济与管理学院北京大数据与脑计算高级创新中心北京市城市运行应急支持模拟技术重点实验室摘要数量日益丰富,尤其是金融领域的数据类型为更全面地了解股市提供了前所未有的机会,并使价格预测比以前更准确。然而,它们也给经典的统计方法带来了挑战,因为这些模型可能被限制为特定类型的数据。为了将不同来源的信息聚合在一起,并为现有模型提供无类型能力,建立了一个混合数据(包括标量数据、组成数据(饼状)和功能数据(曲线状))情景的股市预测框架。所提出的框架与模型无关,因为它就像一个多类型数据的接口,可以与各种预测模型相结合。通过数值模拟,证明了该方法的有效性。关于价格预测,我们通过该框架整合了交易量(标量数据)、日内收益率序列(functionaldata)和来自社交媒体的投资者情绪(组合数据),以有效预测下一天开盘时市场是上涨还是下跌。进一步证明了该框架的强大解释力。具体而言,我们发现,在阳市和牛市之间,日内收益率对以下开盘价格的影响不同。而且,这并不是在熊市开始时,而是在随后的一段时间里,投资者的“恐惧”开始显现出来。

藤椅
kedemingshi 在职认证  发表于 2022-6-10 03:02:24
该框架将有助于将现有预测模型轻松扩展到具有多种数据类型的场景,并有助于更系统地了解股市。关键词:股市预测、投资者情绪、复杂数据、数据聚合、模型独立*通讯作者:jichang@buaa.edu.cnPreprint提交给Elsevier 2018年5月16日。引言预测股票价格在理论和应用方面都吸引了重要的研究兴趣。随着技术的发展,与股票市场相关的数据在来源或类型上不断积累和多样化。例如,直接来源于金融系统本身,如各种频率的价格信息(Harris,1986;Jain and Joh,1988;Pan et al.,2017)、公司财务报告(Jones and Litzenberger,1970;Zhou et al.,2015,2017a)和金融新闻(Geva and Zahavi,2014;Li et al.,2014;Hagenau et al.,2013)。间接来源是金融系统之外的因素,如宏观经济的兴衰(Chen等人,1986),社交媒体所揭示的投资者情绪的反应和反映(Zhou等人,2017b;Sun等人,2017;Ruan等人,2018;Zhang等人,2017;Li等人,2014),搜索引擎(Preiset等人,2013)或分析师建议(Duan等人,2013),丰富的数据源为更全面地了解股市提供了机会,使价格预测比以前更准确。同时,它也对经典的统计分析提出了挑战,因为它们可能不适合同时处理这些数据。

板凳
能者818 在职认证  发表于 2022-6-10 03:02:27
例如,投资者的情绪数据是饼状的,其组成部分是不同情绪的比例,然而,日内收益率序列是曲线状的。前一类数据通常被视为组成数据,后一类数据是功能数据。由于这两类数据属于不同的空间,直接将它们结合在一起并进行统计分析是不合理的。复杂数据分析在过去的几十年中得到了迅速发展。最流行的两种复杂数据类型是组合数据和功能数据。成分数据的一个观测值由D比例构成,该比例受单位总和约束。自1896年以来,成分数据一直是研究的重点(Pearson,1896;Chayes,1960),并已应用于许多研究领域,如经济学(Longford and Pittau,2006)、生态学(Aebisher et al.,1993;Bingham et al.,2007)、地球化学(Buccianti et al.,2006;Miesch and Chapman,1977)、社会科学(Godichon Baggioni et al.,2018)等。同时,功能数据分析(FDA)研究在过去几十年中发展迅速(Ramsay和Silverman,1997;Ferraty和Vieu,2006;Horv\'ath和Kokoszka,2012;Fan等人,2015)。对功能数据的一次观察包括一个函数(通常是平滑曲线,但并不总是如此)。功能线性模型是FDA中最常用的方法之一(Ramsay和Silverman,2007;Horv\'athand Kokoszka,2012;Cai等人,2006)。功能线性模型上已经发表了许多结果,其中只提供了功能预测因子(Hall and Hooker,2016;Comteet al.,2012;Garcia-Portugu\'es et al.,2014;Escabias et al.,2004;Shang et al.,2015;Huang et al.,2016)。

报纸
可人4 在职认证  发表于 2022-6-10 03:02:30
然而,这些回归模型仅限于单一类型的数据,建模时很少考虑混合类型的数据(Wanget al.,2016)。事实上,聚合各种来源或格式的数据确实会丰富勘探的观点和分辨率。股票价格预测就是这样一种情况。虽然日常价格系列是进行预测时最常见的数据(Hsu,2011;Jasemi et al.,2011;Efendi et al.,2018;Baralis et al.,2017;Ye et al.,2016;Chen和Chen,2015),但随着金融数据生成和保留的快速增长,其他类型的数据也吸引了人们的注意力。首先,社交媒体的公众在线情绪被用于预测股市。根据中国最大的在线社交媒体新浪微博上的6万条微博,万运和杰(2013)证明,公众的在线情绪只能预测交易量,而不能预测价格。然而,由于他们进行这项研究既没有使用大量的微博,也没有使用有效的分类工具,因此他们的结果可能不是一般性的结论。Zhou等人(2017b)为350多万条微博指定了五个标签,包括“愤怒”、“厌恶”、“快乐”、“悲伤”、“恐惧”,并表明“厌恶”、“快乐”、“悲伤”、“恐惧”可能有助于预测中国股市指数。五种类型的日常情绪都是自然构成的数据观察。

地板
能者818 在职认证  发表于 2022-6-10 03:02:33
其次,随着各种频率的日内价格时间序列的可用性,研究人员记录了许多与股票回报相关的日内现象,包括一天结束时的价格上涨(Harris,1986,1989),在开盘后的前45分钟内,日内回报出现了显著的工作日差异(Harris,1986),最大的股票回报发生在第一个交易小时(周一除外)和最后一个交易小时,最低的平均回报发生在当天的第五个小时(Jain和Joh,1988)。然而,据我们所知,关于日内收益如何影响未来价格的确切知识仍有待讨论,除了一项支持自回归、随机游走线性模型、平滑过渡、马尔可夫切换、人工神经网络、,预测日内收益的非参数核回归和支持向量机模型(Mat'ias和Rebredo,2012)。考虑到日内收益率序列与常用的日内收益率序列的频率不一致,我们认为日内收益率曲线可以用作函数数据的观测,即一个交易日一条曲线。第三,日交易量已被证明是股票分析中的一个重要指标,因为它用于衡量市场波动的相对价值(Foster和Viswanathan,1993;Lillo等人,2003),通常属于常见的标量数据。

7
能者818 在职认证  发表于 2022-6-10 03:02:36
然而,在股票市场信息丰富的情况下,如何将多种类型的数据集成到一个预测模型中仍然是未知的,但对于理解和预测股票市场具有重要意义。为了填补这一重要缺口,在本研究中,我们提出了一个框架,将来自社交媒体(组合数据)、日内收益率序列(functionaldata)和交易量(标量数据)的投资者情绪结合在一起,以预测市场在第二天开盘时是否上涨或下跌。由于预测的目标是二元的,因此可以将其视为一个分类问题。具体而言,通过分别按照等距比变换和函数主成分基展开变换原始数据,我们可以从成分数据和函数数据中有效地获得一致的数字类型的特征。由于转换独立于预测分类,因此该框架充当数据和预测模型之间的接口。我们采用Logistic回归作为分类模型的一个案例,并给出了相应的估计程序。请注意,其他分类模型也可以结合到当前方法中,而当类别是二分法且不需要假设变量的数据分布时,逻辑回归特别有用。更重要的是,与支持向量机等“黑箱”方法不同,逻辑回归可以提供预测因子的系数,这对于模型更深入地了解预测因子和响应之间的关系非常重要。鉴于这些好处,本文主要考虑逻辑回归,但该框架可以与任何预测模型相结合。

8
大多数88 在职认证  发表于 2022-6-10 03:02:39
通过数值模拟进一步证明了该框架的估计过程的一致性和有效性。在实际应用中,通过将样本周期划分为三个阶段,模型在进行样本外预测时,尤其是在前两个阶段,表现出良好的预测能力。此外,我们发现,功能系数和数字系数都能说明不同的市场地位。最令人惊讶的是,我们发现在牛市(第1阶段)“悲伤”比“喜悦”更具指示性。在最初的市场崩溃(第二阶段)中,“厌恶”在解释市场方面起着主导作用。当市场变得萧条时(第三阶段),“愤怒”和“恐惧”开始起作用,其他情绪也开始起作用。此外,我们的结果表明,投资者的“恐惧”并不是在熊市开始时,而是在随后的一段时间内开始显现。论文的其余部分组织如下。第2节介绍了三类预测因子的数据和二元反应,这促使我们开发具有多种数据类型的框架。在第3节中,我们说明了处理组合数据和功能数据的转换方法,然后提出了与模型无关的框架。我们还介绍了如何在框架下估计逻辑回归的参数,这被视为分类方法的一个案例。第4节进行了模拟研究,以证明所提出的框架可以产生有效的估计结果。第五部分从解释力和预测力两个角度给出了中国股市指数的预测结果。在第6节中,我们得出了结论以及本文的一些局限性。2、数据2.1。

9
大多数88 在职认证  发表于 2022-6-10 03:02:42
样本期和二元响应在本研究中,我们考虑了中国股市,根据市值计算,中国股市是世界上最大的市场之一。本研究的样本期为2014年12月2日至2016年4月29日(共345个交易日),涵盖了近期中国股市的兴衰。从图1可以看出,上海证券交易所综合指数是中国最重要的股票市场指数之一,从2014年底一直上涨到2015年6月的过去七年的顶部,然后在接下来的几个月急剧下跌。从那时起,市场一直在接近2014年底的低位震荡。由于整个时期的基础市场基本面变化很大,我们将样本期分为三个阶段,如图1中的不同背景所示。第一阶段始于2014年12月2日至2015年6月18日,见证了中国股市的巨大繁荣。第二阶段从2015年6月19日至2015年10月14日,从股市泡沫破灭开始,然后是严重动荡,尽管ZF已经实施了许多救助措施。本文定义的第三阶段始于2015年10月15日至2016年4月29日,当时市场受到重大系统性余震的影响,持续低迷。此外,如第2.4节所述,市场情绪的模式随三个阶段而变化。因此,以下分析和建模分别应用于三个阶段。图1:上海证券交易所成分指数。本研究的样本期为2014年12月2日至2016年4月29日(共345个交易日),完全涵盖了近期中国股市的兴衰。

10
何人来此 在职认证  发表于 2022-6-10 03:02:46
样本期分为三个阶段,由不同的背景说明。本文以上海证券交易所综合指数(SSEC)作为代表中国股市走势的指标。SSECon第一天收盘价- 1表示为closingi-1第一天SSEC的开盘价表示为开盘价。然后,第一天SSEC的每日未平仓收益率定义为y*i=(打开i-closingi公司-1) /关闭I-1、原因是,这种百分比变化与投资者在任何交易信息板开市时看到的一致(Lu等人,2017)。事实上,最重要的不是公开收益的确切价值,而是公开收益是正是负,因为它可以为交易方向提供建议。因此,使用零作为切割点*iis转换为二进制变量yi,即yi=1,y*i> 00,否则。(1) yi,i=1。。。,n在第5.2.2节中用作二进制响应。功能预测:日内收益在中国股市的一个典型交易日,从上午9:30到上午11:30和下午13:00到下午15:00,连续拍卖有4个交易小时。为了描述SSEC的日内回报,我们使用每五分钟的最后一个价格来计算日内百分比变化。将第i天时间t的SSEC价格表示为pi,t,则第i天时间t的SSEC日内收益率为ri,t=(pi,t-pi,t-1) /π,t-1,正如大多数财务研究中通常定义的那样。从上午9:35至11:30和下午13:00至15:00,一次观察(一个交易日)包含49个点。日内收益率系列被视为功能数据,因为它们可以提供指数趋势曲线的连续信息。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 07:54