楼主: 能者818
1091 21

[量化金融] 利用遗传算法从异构数据流中提取预测信息 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-5-11 02:00:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Extracting Predictive Information from Heterogeneous Data Streams using
  Gaussian Processes》
---
作者:
Sid Ghoshal, Stephen Roberts
---
最新提交年份:
2018
---
英文摘要:
  Financial markets are notoriously complex environments, presenting vast amounts of noisy, yet potentially informative data. We consider the problem of forecasting financial time series from a wide range of information sources using online Gaussian Processes with Automatic Relevance Determination (ARD) kernels. We measure the performance gain, quantified in terms of Normalised Root Mean Square Error (NRMSE), Median Absolute Deviation (MAD) and Pearson correlation, from fusing each of four separate data domains: time series technicals, sentiment analysis, options market data and broker recommendations. We show evidence that ARD kernels produce meaningful feature rankings that help retain salient inputs and reduce input dimensionality, providing a framework for sifting through financial complexity. We measure the performance gain from fusing each domain\'s heterogeneous data streams into a single probabilistic model. In particular our findings highlight the critical value of options data in mapping out the curvature of price space and inspire an intuitive, novel direction for research in financial prediction.
---
中文摘要:
金融市场是出了名的复杂环境,呈现出大量嘈杂但潜在信息丰富的数据。我们考虑使用带有自动相关确定(ARD)核的在线高斯过程从广泛的信息源预测金融时间序列的问题。我们通过融合四个独立的数据域(时间序列技术、情绪分析、期权市场数据和经纪人建议)中的每一个来衡量绩效收益,并以标准化均方根误差(NRMSE)、中值绝对偏差(MAD)和皮尔逊相关性进行量化。我们证明,ARD内核产生有意义的特征排名,有助于保留显著的输入并降低输入维度,为筛选财务复杂性提供了一个框架。我们测量将每个域的异构数据流融合到单个概率模型中的性能增益。特别是,我们的研究结果强调了期权数据在绘制价格空间曲率方面的关键价值,并为金融预测的研究提供了直观、新颖的方向。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Extracting_Predictive_Information_from_Heterogeneous_Data_Streams_using_Gaussian.pdf (297.8 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:遗传算法 数据流 Quantitative Econophysics Applications

沙发
大多数88 在职认证  发表于 2022-5-11 02:00:39
Algorithmic Finance 5(2016)21–30DOI:10.3233/AF-160055IOS Press使用高斯过程从异构数据流中提取预测信息。戈沙拉,b,*和S.Robertsa,b,英国牛津大学工程科学系,英国牛津大学UKbOxford Man定量金融研究所。金融市场是出了名的复杂环境,呈现出大量嘈杂但潜在信息丰富的数据。我们考虑使用具有自动相关确定(ARD)核的在线高斯过程从广泛的信息源预测金融时间序列的问题。我们通过融合四个独立的数据域(时间序列技术、情绪分析、期权市场数据和经纪人建议)中的每一个,以标准化均方根误差(NRMSE)、中值绝对偏差(MAD)和皮尔逊相关性来衡量绩效增益。我们证明,ARD内核产生了有意义的特征排名,有助于保留有效的输入并降低输入维度,为筛选财务复杂性提供了一个框架。我们测量将每个域的异构数据流融合到单个概率模型中的性能增益。特别是,这些发现突出了期权数据在绘制价格空间曲线方面的关键价值,并为金融预测研究提供了直观、新颖的方向。关键词:时间序列分析、财务预测、贝叶斯方法、高斯过程1。引言财务预测的核心挑战之一是确定在哪里寻找。金融机构的时间序列历史、可比数据和衍生品、新闻文章和观点文章都有可能影响价格演变。

藤椅
可人4 在职认证  发表于 2022-5-11 02:00:43
对于金融界和机器学习界来说,开发一个强大的框架,用于从不同的、联合信息丰富的数据集中提取知识,仍然是一个公开的挑战。在本文中,我们预测了S&P500指数的日收益率,这是一个广泛的市场基准,用于衡量通常被视为金融稳定性的指标。标准普尔500指数是一封市值电子邮件:sjrob@robots.ox.ac.uk.*通讯作者:S.戈沙尔。电话:+447740700665;电子邮件:sghoshal@robots.ox.ac.uk.weighted美国500家最大公司的指数,涵盖了技术、消费品、公用事业和金融服务公司的所有领域。这是世界上最明显的基准之一,买入并持有共同基金和高频对冲基金都在积极交易。我们首先假设四大类,从中寻找显著的解释变量。市场技术指标包括测量自相关的滞后回报,以及行业中使用的图表信号,如移动平均收敛发散(MACD)。情绪分析涵盖了新闻流的影响,通过社交媒体中的乐观主义或悲观主义来衡量。期权市场度量让我们得以一瞥市场专家的定位,并为我们提供了一种原则性的、数据驱动的方法,将价格空间建模为一个具有方向偏差和回报压缩区域的非均匀维度。经纪人建议整理2158-5571/16/$35.00(c)2016–IOS出版社和作者。保留所有权利22 S.Ghoshal和S。

板凳
kedemingshi 在职认证  发表于 2022-5-11 02:00:46
Roberts/利用高斯过程从异构数据流中提取预测信息是股票分析师的智慧,使我们能够测量他们的升级和降级的预测值(如果有的话)。我们证明,当组合来自每个域的信号时,预测性能会提高,并通过在自适应高斯过程模型的协方差参数化中实现自动相关确定(ARD),为输入的分类提供了一个原则框架。从这一分析中得出的排名定义了预期,并鼓励进一步调查期权市场和价格空间代表性。2.前期工作我们首先通过使用各种数据流回顾财务预测领域的相关前期研究,为我们的研究建立背景。然后我们将注意力转向常用的多元分析技术。技术分析是最早的金融预测形式之一,17世纪首次出现在荷兰市场的商品统计中。在20世纪40年代正式成为一门学科(Edwards and Magee,1946),它涉及使用价格和数量时间序列进行定向预测。之前的回归分析(Lo等人,2000年)对其进行了广泛研究,证明了通过识别价格历史中的特定模式所提供的增量增益预测性能。技术驱动的高斯过程回归已被应用于预测各种资产类别的时间序列,包括股票市场价格(Farrell和Correa,2007年)、股票市场波动性(Ou和Wang,2009年)和商品价差(Chapados和Bengio,2007年)。这些研究表明,模型性能高度依赖于训练集的大小。近几十年来,利用文本数据进行财务预测的文献激增,密切跟踪自然语言处理领域的进展。

报纸
mingdashike22 在职认证  发表于 2022-5-11 02:00:50
这一领域的方法通常涉及将单词或短语转换为情绪的数值量具,用以预测股市方向(Nikfarjam等人,2010)。建模技术包括简单的朴素贝叶斯或支持向量机分类器,以及基于深度学习的更高级算法。最近,情绪构成方面的更多研究试图利用新闻流量数据预测美国非农就业人数等经济指标。这些研究表明,对新闻文章的准确解析可以为市场动态公告提供最先进的预测(Levenberg等人,2013年、2014年)。关于股票和期权市场价格之间相互作用的研究很少,尽管早期曾尝试评估成交量数据中的相关性。研究表明,看涨期权流动导致标的股票流动滞后一天,这证明了期权和股票市场之间信息流动顺序的假设(Anthony,1998)。已经进行了多项研究,以确定买卖建议对股票价格的影响。对股票分析师报告的研究显示,在经纪人行为的数学计算之后,出现了显著的、系统的但不对称的漂移,在升级后短暂、适度的收益,但在降级后持续的材料抛售(Womack,1996)。这些变化的程度不仅取决于行动(升级与降级),还取决于分析师的声誉、他们经纪公司的规模以及推荐公司的规模(Stickel,1995)。各种技术已应用于金融领域的多元分析,依靠独立成分分析降低维度(Luet al.,2009)和椭圆copula模型捕捉输入依赖性(Biller和Corlu,2012)。这些研究发现,使用同一领域的多个时间序列可以获得增量信息。

地板
kedemingshi 在职认证  发表于 2022-5-11 02:00:55
相比之下,我们的工作侧重于异构数据融合和域间依赖关系建模。3.数据在本节中,我们详细介绍了所考虑的四个领域中每个领域的特征,所有这些特征都将用于预测收益率(t+1),以及标准普尔500指数上的下一天日志收益率。3.1. 技术指标市场技术指标是直接从金融工具的价格历史p(t)中得出的指标。我们考虑工业界常见的四个特征(Taylor和Allen,1992):标准普尔500指数的前一个日对数收益率、其50天的简单移动平均值,以及移动平均收敛散度(MACD)和信号线,由时间序列的指数移动平均值(EMA)构成,如下所示:MACD(t)=12天EMAp(t)- 26天均线p(t)(1) S.Ghoshal和S.Roberts/使用高斯过程从异构数据流中提取预测信息23信号线(t)=MACD(t)- 9日均线MACD(t)(2) 我们不认为这些指标的制定本身就有意义,而是认为标准化定义提供了图表市场参与者反应的精确、可测量的阈值。包括这些功能将使我们的模型能够识别这些阈值,从而预测技术引导的订单流量。3.2. 情绪分析虽然事实新闻流很重要,但市场对其解读的极性——节拍或失望——推动了市场运动。市场情绪是通过Twitter和Stocktwits中的指标捕捉到的,这是一个致力于金融市场实时讨论的社交媒体网站,标准普尔500指数散户投资者经常光顾。通过跟踪情绪指数的每日变化,得出了另外两个指标。3.3.

7
可人4 在职认证  发表于 2022-5-11 02:00:57
基于期权的价格空间建模作为一个为更成熟的交易者保留的省份,期权市场的未平仓交易量为了解最有经验、资本充足的参与者的预期提供了一个窗口。作为具有显著敏感性的工具,期权数据也让我们能够了解这些预期在不同的价格水平下如何变化,从而促使我们将价格表示为具有可识别的高方向偏差或方差区域的同质空间。举例来说,看涨期权的高开息(OI)加上看跌期权的低开息表明专家们正在为反弹做准备。相比之下,在给定的价格水平上,高的未平仓利率意味着专家们对该价格的方向性缺乏共识,并暗示着均衡匹配的竞争力量将压缩本地回报。我们将这种现象称为粘性,将价格空间视为一种不均匀流体,使低粘度区域出现价格差距,并防止其进入高粘度区域。看涨期权和看跌期权的价格通过Black-Scholes公式计算,并取决于确定期权所有者可能购买或出售标的资产的价格的“行使”水平。多头多头头寸是指在相同的执行价格和到期日同时持有看涨期权和看跌期权:只要标的资产在到期前充分偏离执行价格,多头多头头寸就不会表现出方向性,也不会带来收益。为了捕捉开放式兴趣数据隐含的方向性和粘性,我们构建了两个度量。方向性度量了在行权s的未平仓利率随时间τ的每日变化,即所有行权s和到期日的总和。它代表了专家的乐观态度,看涨期权定位证明了这一点,而建筑业与标准普尔500指数的次日回报率正相关。

8
何人来此 在职认证  发表于 2022-5-11 02:01:00
比例因子e-γDτ解释了期权交易者的时间敏感性,并通过模拟到期时间延长时γ风险的指数衰减来扩大临近到期日的权重。方向性(t)=s∈S、 τ∈T(OI(s,t,τ)调用-OI(s,t,τ)Put)×exp(-γDτ)-s∈S、 τ∈T(OI(s,t-1,τ)呼叫- OI(s,t-1,τ)Put)×exp(-γDτ)(3) 参数γD测量方向性衰减的速率,作为到期时间的函数,并通过求解γD=arg maxγDcorr在训练数据上进行优化方向性(4) 其中,corr是其两个参数之间的线性相关性。在粘度参数化方面,我们做了三个建模假设。首先,在期权到期日之前,高跨持仓未平仓期权的钉住效应最大。第二,这种效应随着实际价格从跨盘走向s而衰减。第三,我们认为,未平仓交易量遵循对数正态分布,随着时间的推移,通过正态分布指数因子的复合而演变,并限制在非负值范围内。这些主张共同推动了以下表述:粘度(t)=s∈S、 τ∈T经验(-λV |价格(t)-s |)×经验(-γVτ)×log[min(OI(s,t,τ)调用,OI(s,t,τ)Put)+1](5) 我们预计,粘度与标准普尔500指数次日收益率之间存在显著的负相关;因此,调整λVandγvequates以解决以下优化问题:24 S.Ghoshal和S.Roberts/使用高斯过程λV,γV=arg minλV,γVcorr从异构数据流中提取预测信息粘度,|返回|(6)3.4.

9
mingdashike22 在职认证  发表于 2022-5-11 02:01:04
经纪人推荐市场分析师针对个别股票而非整个市场发布建议——这部分反映了经纪公司的激励结构:对于积极管理的投资组合,佣金远远大于被动指数制定者。为了克服这个问题,我们根据标准普尔500指数前100名股票的经纪人推荐加权总和,构建了一个经纪人推荐指数。这些股票占该指数市值的63%,经纪人对这些股票的行为对整个指数的影响不成比例。根据这些加权总和建立了两个指数,以追踪分析师意见的变化(升级和降级)和共识状态的变化(买入、持有或卖出)。ARD高斯过程在描述ARD核和相关分数概念之前,我们简要回顾了高斯过程建模的基本原理。关于高斯过程的综合处理,请参考Rasmussen和Williams(2006)。高斯过程是随机变量的集合,其中任何一个子集都具有联合高斯分布。高斯过程完全由均值函数和协方差函数或核参数化。给定一个实过程f(x),我们把高斯过程写成:f(x)~ 其中函数m(x)和k(x,x\')分别是均值函数和协方差函数:m(x)=E[f(x)](8)k(x,x) = E[(f(x)- m(x))×(f(x′)- 输入通常在预处理期间居中。对于给定的训练集X={X,…,xn}和相应的输出变量y={y,…,yn}高斯过程f,f=[f(x),…,f(xn)]将是:f~ N(0,K)(10),其中Kij=K(xi,xj)。以f为条件,给出了wehaveaGaussian观测模型:yi | f(xi)~ N(0,σN)(11),其中σN是噪声的参数。

10
可人4 在职认证  发表于 2022-5-11 02:01:07
高斯分布结合允许我们将f边缘化,以确定分布:yi~ N(0,K+σnI)(12)和对训练数据的条件化产生以下预测分布y*对于不可见的测试数据点x*:y*|十、*, 十、 y~ N(k)*(K+σnI)-1y,k**- K*(K+σnI)-1k*) (13) 其中Kij=k(xi,xj),k*= [k(x,x*), ..., k(xn,x)*)] 和k**= k(x)*, 十、*). 这种方法结合了f的先验知识,f编码在方差函数k(x,x)中), 利用观测数据生成后验分布进行预测。为了应对过度匹配,我们引入了k-fold交叉验证,这是一种模型验证方法,涉及将原始训练集划分为k个完整子集。然后,我们在k-1子集上训练模型,并在剩下的一个子集上进行测试。在对该验证集的k个选项进行轮换后,所有测试的结果都是平均的,从而深入了解模型的泛化能力。我们应用10倍交叉验证,从一系列选项(平方指数、有理二次、Mat\'ern 1/2、Mat\'ern 3/2和Mat\'ern 5/2;Rasmussen和Williams,2006)中确定数据集的最佳协方差函数,并确定Mat\'ern 3/2核,这是一个一次可微函数,表现出金融时间序列典型的低平滑度。k(x,x)) = σf1 +√3 | x- 十、|L×exp-√3 | x- 十、|L(14) 上述协方差函数采用各向异性曼哈顿范数作为输入空间中两个向量之间的相似性度量。这假设一个单一的全局特征长度量表l可以恰当地评估所有输入维度中的接近度。即使在预处理过程中所有输入都标准化为同一刻度,它们也可能包含不同级别的输出信息。戈沙尔和S。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 17:47