楼主: nandehutu2022
458 23

[量化金融] ETS挑战:评估 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

75%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
65.5896
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24498 点
帖子
4088
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《The ETS challenges: a machine learning approach to the evaluation of
  simulated financial time series for improving generation processes》
---
作者:
Javier Franco-Pedroso, Joaquin Gonzalez-Rodriguez, Maria Planas, Jorge
  Cubero, Rafael Cobo, Fernando Pablos
---
最新提交年份:
2018
---
英文摘要:
  This paper presents an evaluation framework that attempts to quantify the \"degree of realism\" of simulated financial time series, whatever the simulation method could be, with the aim of discover unknown characteristics that are not being properly reproduced by such methods in order to improve them. For that purpose, the evaluation framework is posed as a machine learning problem in which some given time series examples have to be classified as simulated or real financial time series. The \"challenge\" is proposed as an open competition, similar to those published at the Kaggle platform, in which participants must send their classification results along with a description of the features and the classifiers used. The results of these \"challenges\" have revealed some interesting properties of financial data, and have lead to substantial improvements in our simulation methods under research, some of which will be described in this work.
---
中文摘要:
本文提出了一个评估框架,试图量化模拟金融时间序列的“真实度”,无论模拟方法是什么,目的是发现这些方法无法正确再现的未知特征,以改进它们。为此,评估框架被视为一个机器学习问题,其中一些给定的时间序列示例必须分类为模拟或真实的金融时间序列。“挑战赛”是一项公开比赛,类似于在Kaggle平台上发布的比赛,参赛者必须发送其分类结果以及所使用的特征和分类器的描述。这些“挑战”的结果揭示了金融数据的一些有趣特性,并导致我们正在研究的模拟方法有了实质性的改进,其中一些将在本文中描述。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:ETS Quantitative Applications Participants Improvements

沙发
kedemingshi 在职认证  发表于 2022-6-11 04:10:35 |只看作者 |坛友微信交流群
O R I G I N A L A R T I C L ETS挑战:评估模拟金融时间序列以改进发电流程的机器学习方法Javier Franco Pedroso | Joaquin Gonzalez Rodriguez | Maria Planas | Jorge Cubero | Rafael Cobo | Fernando PablosAudias Research Group,EscuelaPolitécnica Superior,Universidauto de Madrid,28049,SpainETS资产管理工厂,Pozuelode Alarcón,Madrid,28223,SpainCorrespondenceJavier Franco Pedroso,Madrid,SpainEmail:javierfrancopedroso@gmail.comFundinginformationETS资产管理工厂,项目名称:“Tecnologías de tratamiento de se~nalpara mercados fifinanciaros”表示模拟金融时间序列的“真实度”,无论模拟方法是什么,目的是发现这些方法无法正确再现的未知特征,以改进它们。为此,评估框架被视为一个机器学习问题,其中一些给定的时间序列示例必须分类为模拟或真实金融时间序列。“挑战”是一项开放式竞赛,类似于Kaggle平台上发布的竞赛,参赛者必须发送其分类结果以及所用特征和分类者的描述。这些“挑战”的结果揭示了正在研究的使用方法的一些有趣的特性,其中一些特性将在本工作中描述。中国式学习;经验性质;多元时间序列;金融工程;资产模拟ARXIV:1811.07792v1【q-fin.CP】2018年11月19日JAVIER FRANCO-PEDROSO ET AL.1 |简介模拟方法广泛用于多种目的的金融应用;例如,如果将资产价格建模为某种给定类型的随机过程,则可以在给定的未来时间估计其周围的置信区间。

使用道具

藤椅
kedemingshi 在职认证  发表于 2022-6-11 04:10:38 |只看作者 |坛友微信交流群
这些数据生成过程的优度通常是通过检查它们是否与时间序列的时间演化相关(例如,收益的自相关或绝对收益)未被评估来评估的。此外,金融时间序列的其他一些特性可能完全未知,因此我们不知道在哪里可以查看模拟序列是否与真实序列一样。在本文中,我们提出了一种相反的方法:我们不是检查真实财务数据的某些已知特性是否在模拟数据中观察到,而是解决一些模拟序列是否可以与真实序列区分的问题。这可以看作是一个二元分类问题,我们必须将其分为两类,即真实金融时间序列和模拟金融时间序列。因此,机器学习技术基于这些特征分析了这两个类之间的差异。这样,在不同的生成过程之间进行比较的过程就变得完全真实,并且可以使用许多特征(可能是一些未知的鉴别特征)。此外,如果一个特定的系统获得了非常好的分类结果,那么我们可以研究这些特性及其与生成过程的关系,以改进模型或模拟方法,或者可以了解到一些到目前为止未知的真实金融时间序列的有趣特性。在第2节中,我们进一步激发了对此类评估框架的需求,并介绍了其特点。挑战中的两个结果用于比较第5节中的不同生成方法,作为第5节中总结的客观评估??。ETS挑战概述和一般评估框架“[续(2001,2007)],[Chakraborti等人。

使用道具

板凳
可人4 在职认证  发表于 2022-6-11 04:10:41 |只看作者 |坛友微信交流群
(2007年)])的方法,但这种方法存在几个问题。程式化的事实是,回报率分布呈现出比高斯分布更重的尾部【Mandelbrot(1963)】,而这一统计数据和其他统计数据,作为足够数量的样本,必须可用,以便正确估计,因为统计数据可能不会收敛于给定的样本大小。此外,在不同的时间尺度上偏离正态分布的程度,可能需要不同的样本量才能使统计收敛,这需要检查几个属性。这涉及到单独比较真实和模拟时间Javier FRANCO-PEDROSO等人3系列之间的许多度量,并决定观察到的差异是否可接受,通常通过确定真实和模拟时间系列是否可区分来总结一些更好的方法。我们已经知道,我们只是寻找模拟和实时序列之间的差异,我们可能会发现真实金融数据共享的一些有趣的属性或行为。为了实现这一目标,通过公开竞争解决了检验模拟方法优劣的目标,该竞争被视为二元分类问题,其中包括原始回报值的一组示例必须被分类为真实或模拟金融时间序列。对于每个挑战,将向参与者提供两个平衡的真实和模拟时间序列集:其中一个(训练集)与真实的类标签一起提供,用于开发目的,而另一个未标记(测试集)。对于后一组,参与者应运行其特征提取器和分类器,包括对所用特征提取器和分类器的描述。

使用道具

报纸
mingdashike22 在职认证  发表于 2022-6-11 04:10:44 |只看作者 |坛友微信交流群
每个提交系统的分类结果指向相反的类别)。来自同一市场(同一类型的投资基金或同一指数)。生成方法在整个real上进行培训(每个投资基金或股票的模拟次数相同)。然而,测试的生成方法可能不是针对特定的时间序列,而是针对一组时间序列,因此真实时间序列和模拟时间序列之间可能不存在一一对应关系。图1显示了如何生成培训和测试子集。TA B L E 1所提供数据集的组成。子集#示例/类段长度类标签序列6000 260提供测试6000 260未提供4 JAVIER FRANCO-PEDROSO ET AL.F I G U R E 1数据分区方案。2016年挑战:在投资基金的背景下进行检测ETS挑战的第一版侧重于投资基金的生成方法。图2显示了From的时间序列,显示了价格(上面板)和收益(下面板)的时间序列。为了更好的服务化,价格被迫从价格值p(t=0)=1开始。(a) 固定收益基金。(b) 股票基金。2016年ETS挑战赛中使用的固定收益和股票基金。JAVIER FRANCO-PEDROSO等人5首先利用合并两种类型投资基金的时间序列构建发电流程部分。3.1 |测试模拟方法第一版ETS挑战中使用的模拟方法是[Franco Pedroso et al.(2018)]中描述的早期版本。生成过程可总结如下:o分析阶段:将整个多变量训练数据集(每个维度是不同的时间序列)拆分为市场指数)。

使用道具

地板
可人4 在职认证  发表于 2022-6-11 04:10:47 |只看作者 |坛友微信交流群
然后,对于每个趋势,使用一个不重叠的滑动窗口来计算平均向量和趋势的“模型”。o综合阶段:首先,假设在分析阶段获得的交替趋势(向上和向下)的随机序列。然后,对于每个趋势,通过从高斯分布中提取多变量样本生成随机多变量回报,其参数根据分析阶段观察到的窗口序列进行更新新资产生成阶段:通过遵循前两个阶段,可以生成原始数据集的模拟版本,通过协方差矩阵保持给定时间序列之间的相关性。为了生成具有类似相关性的其他艺术资产,使用了基于主成分分析的程序。首先执行PCA,以便将原始时间序列集R分解为特征向量(变换矩阵,W)和分量(投影时间序列,R)。然后,通过将从多元高斯分布生成的部分特征向量与从W获得的均值和协方差矩阵相加,扩大变换矩阵,得到一个新的变换矩阵W,其特征向量数与所需的时间序列数相同。模拟数据集具有所需的维数。股票时间序列的性质见[Franco Pedroso et al.(2018)]。从现在起,这将被称为方法1,以区别于ETS挑战第二版(第4节描述)中遵循的生成过程。3.2 |提交了实时和模拟时间序列之间的系统和结果,并附有参与者遵循的开发过程的简要描述。对于这些系统,没有进行进一步的分析。

使用道具

7
能者818 在职认证  发表于 2022-6-11 04:10:50 |只看作者 |坛友微信交流群
然而,提交的系统功能之一使用了生成过程中可能存在的一些缺点。有希望的是,参与者对该提交进行了深入描述,他们在培训集中对每个样本(260个返回值)进行了分析6 JAVIER FRANCO-PEDROSO ET AL.correlation function(ACF))。每个样本都是从一个较长的样本中减去的,因此在训练集中,每个类(真实和模拟)的样本都有显著差异,这是一个允许使用40个k-最近邻(kNN)分类器的集合来区分它们的事实【Altman(1992)】,其中k=1,基于特征样本之间的闭合距离。如【Franco Pedroso et al.(2018)】所述,方法1没有遵循自回归方法来产生时间序列行为,因为关于该统计数据的最新报告的经验特性实际上也是【Franco Pedroso et al.(2018)】中针对模拟时间序列观察到的。然而,尽管ACF对两种类型的时间序列(真实时间序列和模拟时间序列)都给出了不显著的值,但与真实时间序列相比,这些值在模拟时间序列中的表现方式仍然存在差异,从而可以轻松区分它们。3.3 |后评估分析为了证实性能最佳的提交系统的鉴别能力,当遵循与挑战中使用的方案类似的方案时,一些实验仍然能够以高精度区分真实和模拟样本。

使用道具

8
能者818 在职认证  发表于 2022-6-11 04:10:53 |只看作者 |坛友微信交流群
为了消除随机提取过程中的任何可能错误或偏差,从两个类别中提取样本,进行了几个仅涉及实时序列的实验。通过这样做,我们试图确认所使用的特征是否捕获了真实金融数据共享的某些属性,或者相反,是否捕获了所提取样本的特殊性,并用于不同的目的(训练或测试)。如果特征捕获的是这样一个一般属性,则不应存在任何被视为不同类别的真实数据分区,这些数据可以进行高精度分类(也就是说,分类者不应能够区分它们)。为此,进行了三个不同的实验:o实验1:整个数据集分为两个不同的时间段,每个时间段分配给不同的班级。从同一子集中提取了用于培训和测试目的的示例(见图3(a))。o实验2:整个数据集被分为两个不同的时间段,每个时间段分配给不同的班级。对于每个类别,数据进一步划分为两个不同的时间序列子集,用于培训和测试目的(图3(b))。o实验3不同的班级。从同一子集中提取了培训和测试目的的示例(图4(a))。o实验4:整个数据集被分成两个不同的时间序列子集,每个子集被分配给不同的类。对于每个班级,数据进一步划分为两个不同的时间段,用于培训和测试目的(图4(b))。这些实验的结果如表2所示。

使用道具

9
mingdashike22 在职认证  发表于 2022-6-11 04:10:56 |只看作者 |坛友微信交流群
可以看出,可以通过将不同子集的数据划分为不同的类来区分真实数据集,表明所使用的特征并没有捕获实时序列的一般特性,而是捕获了特定的差异Javier FRANCO-PEDROSO等人7(a)实验1:来自同一时间序列子集的训练和测试目的示例。(b) 实验2:来自不同时间序列子集的训练和测试目的示例。F I G U R 3两个分类实验,仅涉及真实数据,其中类别代表不同的时间段。(a) 实验3:用于训练和测试目的的示例来自同一时间段。(b) 实验4:用于培训和测试目的的示例来自不同的时间段。F I G U R 4两个分类实验,只涉及真实数据,其中类代表不同的时间序列子集。(实验4)当每个班级的训练和测试子集来自同一时间段时(即,它们在班级之间重叠,但在每个班级内的训练和测试之间不重叠)。如果不同时间序列在时间上接近,则其自相关性相似,这一事实可以部分解释为相同类型的不同资产之间通常存在交叉资产相关性,或来自JAVIER FRANCO-PEDROSO ET AL.8。TA B L E 2仅涉及实时序列的实验。实验类别代表AUC1不同时间段0.952不同时间段(训练/测试)0.903不同资产0.754不同资产(训练/测试)0.48复制【Franco Pedroso et al.(2018)】。这种自相关模式没有在模拟数据上再现的原因是,方法1不遵循自回归方法,而只是尝试匹配分布特性。

使用道具

10
何人来此 在职认证  发表于 2022-6-11 04:10:59 |只看作者 |坛友微信交流群
为了再现实时序列的这种行为,开发了一种新的生成方法,该方法将在下一节中描述。如果ACF系数是为绝对回报计算的,那么分类者也取得了很高的绩效(0.9 AUC),也可以找到已知的“程式化事实”[续(2001,2007)],[Chakraborti等人(2007)]。因此,这两个系统(提交系统和后一个系统)都被用作我们的参考系统(分别为参考1和2)或卫生检查,用于从那时起开发的每个生成过程。JAVIER FRANCO-PEDROSO ET AL.94 | 2017年挑战:在股票背景下的检测使用的主要数据集包括2000年1月1日至2016年4月29日期间的每日价格/回报,其中一组330只股票在这一特定时期内的某个时间已成为标准普尔500指数的一部分。该数据集如图5所示,被迫从价格值p(t=0)=1开始。2017年ETS挑战赛中使用的F I G U R E 5股票数据集。数据集。然后,将其分成两半(不同的股票,相同的时期,如图1所示),以提取挑战中使用的列车和测试数据集的时间序列段。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-12 14:01