楼主: nandehutu2022
394 4

[量化金融] 面向机器学习的金融时间序列数据处理 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

75%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
66.0168
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24498 点
帖子
4088
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Financial Time Series Data Processing for Machine Learning》
---
作者:
Fabrice Daniel
---
最新提交年份:
2019
---
英文摘要:
  This article studies the financial time series data processing for machine learning. It introduces the most frequent scaling methods, then compares the resulting stationarity and preservation of useful information for trend forecasting. It proposes an empirical test based on the capability to learn simple data relationship with simple models. It also speaks about the data split method specific to time series, avoiding unwanted overfitting and proposes various labelling for classification and regression.
---
中文摘要:
本文研究了面向机器学习的金融时间序列数据处理。它介绍了最常用的标度方法,然后比较结果的平稳性和对趋势预测有用信息的保留情况。它提出了一个基于简单模型学习简单数据关系能力的实证检验。它还讨论了特定于时间序列的数据分割方法,避免了不必要的过度拟合,并提出了分类和回归的各种标签。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Financial_Time_Series_Data_Processing_for_Machine_Learning.pdf (1.18 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融时间序列 时间序列数据 序列数据 数据处理 时间序列

沙发
能者818 在职认证  发表于 2022-6-24 07:40:25 |只看作者 |坛友微信交流群
法国巴黎卢西斯的机械学习法布里斯丹尼尔人工智能部的金融时间序列数据处理。daniel@lusis.frhttp://www.lusis。2019年6月1日摘要本文研究用于机器学习的金融时间序列数据处理。它介绍了最常用的标度方法,然后比较了结果的平稳性和对趋势预测有用信息的保留情况。它提出了一个基于简单模型学习简单数据关系能力的实证检验。它还阐述了特定于时间序列的数据分割方法,避免了不必要的过度拟合,并提出了分类和回归的各种标签。关键词:机器学习、金融时间序列、数据处理1机器学习领域的介绍时间序列是非常特殊的数据,需要特定的处理和方法[1][2]。最重要的是,金融数据由于其随机性比例和非平稳性,增加了一个巨大的挑战[4][3]。有很多关于机器学习的金融市场预测的研究[5]。然而,许多研究只涉及一种类型的数据缩放或标记,而在这一步骤上做出的决定可能会对结果产生巨大影响。

使用道具

藤椅
能者818 在职认证  发表于 2022-6-24 07:40:28 |只看作者 |坛友微信交流群
不仅在puremodel性能指标方面,而且在基于模型实际实施可支持交易策略的能力方面。这项研究包括以下几点:o预处理和平稳性o预处理和保存有用的价格关系o分类和回归标记2平稳性在建立任何价格预测模型之前,我们需要对历史价格进行预处理,然后我们必须确保结果数据是平稳的。我们评估了三种最频繁的预处理,首先是价格回报,然后是两种缩放方法:最小最大值和标准化。为此,我们使用了1993年至2019年间的间谍每日收盘价。图1:SPY daily closing Pricelet首次对原始数据应用扩展Dickey Fuller检验[6][7]作为参考。对于这样的样本量,具有趋势的数据集的ADF必须低于-3.96,以1%的置信度拒绝无效假设[8]ADF统计:-0.226901op值:0.991042预计ADF为-0.22,p值为0.99。过程不稳定。建立时间序列平稳性最常用的方法是差分法。

使用道具

板凳
大多数88 在职认证  发表于 2022-6-24 07:40:31 |只看作者 |坛友微信交流群
对于财务数据,我们可以简单地计算回报。图2:SPY daily returns当应用于回报时,ADF测试给出:oADF统计值:-14.954070op值:0.000000这证实了回报的时间序列是平稳的。3缩放返回数据可能是一个很好的基线,特别是因为从0附近得到的非常小的值使其与深度学习方法直接兼容。虽然这非常适用于单一特征时间序列,但如果我们使用多个特征,如高/低价格、数量或任何技术指标,我们可以通过简单使用基于回报的方法来面对问题,因为它不会保留特征相对位置的信息。在这种情况下,必须使用其他一些缩放方法,如MinMax或Standardization。它们在机器学习中被广泛使用,能够保持每个特征的相对位置。在评估这些缩放方法之前,让我们首先介绍机器学习环境中时间序列数据处理的另一个方面,切片。当对金融时间序列进行机器学习时,该模型通常采用一个时间窗口作为输入,例如20个连续收盘价。此时间窗口使用的价格数量定义为回溯期。许多报纸上经常出现的一个标签是下一次价格变化,但我们稍后会看到这可能更复杂。那么让我们假设一个T个连续股票收益率的时间序列{r,…,rT-1} 构建训练集S包括创建一系列K片S={S,…,SK-1} ,每个大小n>1,其中st={rt-nrt公司-1}.对于预测下一次回报的模型,标签由yt定义-n=rt。每个Stslice是通过将t递增1或更多的步骤来创建的。例如,对于增量为1、切片大小为20的返回,前两组为:(S={r,…,r},y=r)(S={r。

使用道具

报纸
可人4 在职认证  发表于 2022-6-24 07:40:34 |只看作者 |坛友微信交流群
,r},y=r)切片完成后,我们有K个可以独立缩放的切片。我们希望我们的机器学习模型能够识别导致价格上涨或下跌的价格模式。通过消除长期市场趋势造成的全球范围效应,独立扩展每个切片可以使培训更加容易。例如,这里是我们首先用最小最大值然后切片(图3a、3b)和先切片然后缩放(图3c、3d)时的第一个和最后一个切片。图3:比较缩放然后切片与切片再缩放(a)第一个切片(b)最后一个切片(c)第一个切片(d)最后一个切片。图5清楚地显示,先切片然后缩放可以使每个训练示例在相同的范围内,从而简化模型训练。现在,让我们以更正式的方式找到最佳的缩放方法。为此,我们缩放训练集,然后执行以下操作:o使用ADF检查平稳性o通过将识别简单价格关系的简单模型训练到切片中,检查信息是否为机器学习上下文保留。我们假设,如果模型无法在每个切片中学习到非常简单的价格关系,例如,确定该板块的最后一个收盘价是否在50巴之前高于收盘价,那么模型几乎没有机会了解导致未来价格变化的任何价格模式。如果一个简单的价格关系得以保持,我们希望模型能够近乎完美地学习它。因此,我们选择的缩放方法是使amodel能够以最佳效率在一个切片中学习简单的价格关系的方法。我们测试了两种常用的缩放方法,最小-最大和标准化。MinMaxScale将每个切片缩放为[0,1]或[-1,1]范围假定xminand xmax是最小和最大的x值。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-7-7 06:32