楼主: 时光永痕
1343 0

[数据挖掘新闻] 分形数学如何帮助预测股市变化 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

44%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
分形数学如何帮助预测股市变化
在金融市场中,投资者使用的两种最常见的交易策略是动量和均值回归策略。如果股票表现出动量(或如下图所示的趋势行为),则如果上一时期已经上涨(下跌),则其当前时期的价格更有可能上涨(下跌)。
下面显示了S&P 500指数或SPY的时间序列的一部分 。这是趋势行为的一个例子。
当股票在时间t的收益以某种方式取决于前一时间t - 1的收益时,收益就被认为是自相关的。在动量状态下,收益呈正相关。
相反,均值恢复股票的价格围绕其历史均值随机波动,并显示出恢复其趋势。如果存在均值回归,则当期价格上涨(下跌)时,下一个价格下跌(上涨)的可能性更大。
如下所示,苹果股票对数收益的时间序列(调整后的收盘价)的一部分是均值回归行为的示例。
请注意,由于这两种状态在不同的时间范围内发生(趋势行为通常在较大的时间范围内发生),因此它们可以并经常共存。
在两种情况下,当前价格均包含有关未来价格的有用信息。实际上,交易策略只能 在资产价格呈趋势或均值回归的情况下产生利润,因为否则,价格遵循所谓的随机游走(请参见下面的动画)。
均值回复时间序列
股票价格很少显示均值回复行为。在绝大多数情况下,它们遵循随机游动(但是,其相应的收益是均值回归的,并且在零附近随机波动)。但是,可以通过组合不同的股票以构建一个协整的投资组合(请参阅此参考资料以了解更多详细信息)来合成均值恢复的价格系列(该信息显示了平稳性)(有关此内容的更多信息)。尽管可以使用多种众所周知的标准统计检验来确定平稳性,但在本文中,我将重点介绍一种基于所谓的Hurst指数的强大分析类型,该分析与分形指数有关价格时间序列。赫斯特(Hurst)指数提供了一种测量财务时间序列偏离随机游走量的方法。这是一个非常简单的工具,可以帮助投资者确定采用哪种策略。
平稳性
在本文中,出于实际目的,我将非正式地使用均值还原和平稳互换术语。现在,假设给定股票的价格(用S(t)表示)表现出均值回归行为。下面的随机微分方程(SDE)可以更正式地描述这种行为
SDE描述均值恢复过程。
在这里,符号
分别是股票价格在时间吨,一个维纳过程(或布朗运动)在时间吨,反转率θ来平均,平衡或过程的均值μ和其挥发性σ。根据此SDE,t + 1时刻的价格变化与t时刻的价格与均值之差成正比。如我们所见,如果价格小于(大于)均值,则价格变化更有可能为正(负)。该SDE的一个众所周知的特殊情况是所谓的Ornstein-Uhlenbeck过程。Ornstein-Uhlenbeck过程以荷兰物理学家的名字命名伦纳德·奥恩斯坦(Leonard Ornstein)和荷兰裔美国物理学家乔治·尤金·乌伦贝克  (George Eugene Uhlenbeck)(请参见下图)。
关于(非)平稳性的两个最著名的测试是Dickey-Fuller测试(DF)和Augmented Dickey-Fuller(ADF)测试。
Dickey-Fuller和增强Dickey-Fuller测试:鸟瞰图
ADF测试是DF测试的扩展,因此让我们首先了解后者。可以说明如下。考虑以下给出的简单模型:
其中S(t)是随时间变化的股票价格,ρ是系数,最后一项是误差项。这里的零假设是ρ= 1。由于在零假设下S(t)和S(t -1)都是非平稳的,因此违反了中心极限定理,因此必须采取以下技巧。
该迪基-富勒试验被命名为统计人员韦恩·福勒和大卫·迪基(图片下方)。ADF是此测试的扩展,适用于更复杂的时间序列模型。
定义第一差和参数δ如下
回归模型可以方便地重写为:
然后,Dickey-Fuller测试假设(技术上为原假设)
δ的分布由Wayne Fuller和David Dickey制成表格。
DF测试背后的逻辑可以通过以下方式进行试探性理解。如果S(t)是平稳的,则趋向于返回某个恒定的均值(或者可能是确定性地发展的趋势),这意味着较大的值可能跟随较小的值,反之亦然。这使得该系列的当前值可以很好地预测以下值,并且我们的δ <0。如果S(t)是非平稳的,则将来的变化不取决于当前值(例如,如果过程是随机游走,当前值不会影响下一个)。
所述ADF测试遵循类似的过程,但将它应用到由下式给出一个更复杂的因此更完整的模型:
在这里,α是实常数,β是时间趋势的系数(漂移项),δs是差的系数
其中p是过程的滞后顺序,最后一项是误差。这里的测试统计量是
分母是回归拟合的标准误差。Dickey和Fuller还列出了该测试统计量的分布。与DF测试一样,我们期望γ <0。有关如何进行测试的详细信息,可以在任何时间序列书中找到。
Python代码
以下Python代码段说明了ADF测试在Apple股票价格中的应用。尽管股票价格很少意味着回升,但是股票对数收益通常是。该Python代码  获取对数差异,绘制结果并应用ADF测试。
情节如下:
苹果股票的对数回报。
ADF测试的输出为:
增强的Dickey-Fuller测试统计量:-28.653611206757994
p值:0.0
临界值:
        1%:-3.4379766581448803
        5%:-2.8649066016199836
        10%:-2.5685626352082207
通常,我们更有可能会拒绝原假设,根据原假设,该序列是非平稳的(它具有单位根),而ADF测试统计数据的“负值”更大。上述检验证实了对数返回序列确实是固定的这一假设。结果表明,在-28.65左右的统计值在1%时小于-3.438,这是我们可以拒绝零假设的显着性水平(有关更多详细信息,请参见此链接)。
赫斯特指数
有另一种方法可以调查过程中均值回归或趋势行为的存在。如将在短期内详细解释的,这可以通过分析序列的扩散速度并将其与随机游走的扩散率进行比较来完成。这个过程将使我们想到赫斯特指数的概念,正如我们将看到的那样,它与分形指数紧密相关。
尽管赫斯特(Hurst)指数的应用可以在数学的多个领域中找到,但我们这里的重点将仅集中在两个领域,即分形和长记忆过程。
分形
分形可以定义如下:
“曲线或几何图形,其每个部分都具有整体相同的统计特征。分形可用于对结构(例如侵蚀的海岸线或雪花)进行建模,在该结构中类似的图案以较小的比例逐渐出现,并且在描述部分随机或混乱的现象(例如晶体生长,流体湍流和星系形成)时非常有用。
分形的一个例子是下图所示的Sierpinski三角形。
测量表面粗糙度的“分形维数”与H具有以下简单关系,
我们看到,大的赫斯特指数与小的分形维数相关,即与平滑的曲线或曲面相关。一个例子如下所示。从本文中获得的该插图清楚地表明,随着H的增加,曲线的确变得更加平滑。
分形具有称为自相似性的性质。在工程和应用数学的多个分支中发生的一种自相似性称为统计自相似性。在显示出这种自相似性的数据集中,任何子部分在统计上都与整个集合相似。统计自相似性最著名的例子可能是在海岸线上。
1967年,分形几何学领域的先驱之一Benoit Mandelbrot在《科学》杂志上发表了一篇开创性的论文,题为“英国的海岸有多长?统计自相似性和分数维”,他讨论了分形的性质,例如自相似性和分数(Hausdorff)维。上图显示了海岸线悖论的示例  。根据它,如果一个人使用不同的单位来测量海岸线,则会得到不同的结果。
远程依赖
当流程具有长期依赖性时,就会发生一种重要的偏离随机游走的现象。这些过程显示出很高的持久性:过去的事件与将来的事件无关紧要,即使它们相距很远。由Granger,Joeuux和Hosking构思的一个示例由以下分数差分时间序列给出:
其中L是通常的滞后算子,指数d是非整数,?是一个误差项。使用简单的二项式展开式,可以用伽玛函数表示该方程式
比较简单的AR(1)过程的自相关函数,我们发现后者的自相关函数的衰减率比前者的慢。例如,对于一个滞后τ?25,
而分数差分过程的自相关函数的对应值为?-0.17。
赫斯特指数的起源
虽然关于Hurst指数的估计方法最近的事态发展是从分形和混沌理论的数学到来,Hurst指数好奇地首先在领域中使用的水文,它主要关注与水分配,质量和它的运动与土地的关系。此外,最近对金融时间序列中长期依赖关系的测试是基于称为Rescaled Range(见下文)的统计数据,该统计数据最初由英国水文学家Harold Hurst开发。赫斯特原始纸的首页如下所示。
赫斯特指数和反常扩散
一种了解价格序列本质的方法是分析其扩散速度。扩散是一种被广泛使用的概念,它描述了某个物体从其集中度高于大多数其他地方的位置(可能是一种想法,一种资产的价格,一种疾病等)的“ 散布 ”。
该图显示了三种类型的扩散(源)的均方根位移如何随经过时间τ变化。
可以通过研究方差如何取决于后续测量之间的差异来测量扩散:
在这个表达式中,τ是两次测量之间的时间间隔,x是价格S(t)的通用函数。通常选择此功能作为原木价格:
众所周知的事实是,股票价格回报的方差很大程度上取决于人们选择衡量它的频率。高频测量结果以1分钟为间隔,与每日测量结果有显着差异。
如果遵循股价(并非总是如此)(尤其是对于每日收益),几何随机游走(或等效的几何布朗运动或GBM),则方差将随滞后时间τ线性变化
并且收益将呈正态分布。但是,当纯随机游走出现小的偏差时(通常会发生这种情况),给定滞后时间τ的方差不再与τ成正比,而是获得了一个异常指数
异常指数与赫斯特指数(来源)成正比。
参数H是所谓的赫斯特指数。均值恢复和趋势存量的特征都在于
满足此等式的每日收益不具有正态分布。取而代之的是,分布的尾部更肥大,均值周围的峰越来越细。
赫斯特指数可用于区分三种可能的市场体制:
如果H <0.5,则时间序列为均值恢复或平稳。与与几何布朗运动相关的正态扩散相比,对数价格波动性的增长速度较慢。在这种情况下,所谓的串联显示器antipersistence(在相邻的点长期切换高值和低值之间)
如果H > 0.5,则该系列显示趋势行为,并且其特征在于存在持久行为(长期正自相关,即高值可能跟随高值)
的? = 0.5情况下对应于一个几何布朗运动
因此,赫斯特指数可衡量时间序列的持久性水平,并可用于识别市场状态:如果赫斯特指数在某个时间尺度上发生变化,则可能表示从均值回归到动量态或反之亦然。
市场制度与赫斯特指数之间的关系。
因此,赫斯特(Hurst)指数可测量时间序列的持久性水平,并可用于识别市场状态。
下面是每种情况的示例:
在下图中,我们看到了赫斯特指数如何随时间变化,指示了体制的变化。
自相关
股票价格S(t)的自相关函数定义如下:
具有自相关的衰减非常缓慢的过程称为长存储过程。这样的过程对过去的事件有一定的记忆(过去的事件对未来的事件有逐渐减弱的影响)。长存储过程的特征是具有幂律衰减的自相关函数ρ(τ)
α与赫斯特指数之间的关系是
注意,当H接近1时,由于指数α接近零,所以衰减变得越来越慢,这表示“持续行为”。经常发生的情况是,最初看起来是随机的进程实际上是较长的内存进程,在开放时间间隔内具有赫斯特指数
这些过程通常被称为分数布朗运动(fBm)或黑噪声,是布朗运动的概括。
使用方差估算赫斯特的重要问题
为了获得对τ的方差依赖,我们必须对许多滞后重复相同的计算,并提取结果的对数图的斜率。正如我们现在所看到的,H的值在很大程度上取决于我们对延迟的选择。本节基于此博客文章中的分析。
让我们考虑标准普尔500指数SPY,并估计不同滞后的赫斯特指数。我们首先运行此代码,其滞后范围为2到20。
我们获得H的以下值:
赫斯特= 0.43733191005891303
如前所述,H的这个值表示一个均值回复状态,尽管相当温和。滞后300–400的相同代码给出:
赫斯特= 0.6107941846903405
H的值表示存在趋势制度。因此,我们看到,滞后的选择会极大地影响赫斯特指数的值。这意味着该时间序列既不是纯粹的均值回归也不是趋势,而是根据行为是在短时间间隔内还是长期内进行测量来改变行为或转移方式。此外,如上所述这里,因为这些结论还远远没有明显的肉眼观察,我们得出结论,基于Hurst指数这种分析可以给重要的见解。
远程依赖性和缩放范围
1971年,Mandelbrot 注意到股票收益率存在长期异常行为 (下图)。
为了测试这种远程依赖性,Mandelbrot 使用了上面简要提到的“重新调整范围”或“ R / S”测试统计量。R / S统计量是一系列偏离其平均值的部分偏差之和的范围,该偏差通过标准偏差重新定标(有关更多详细信息,请参见本书)。Mandelbrot等人表明,与其他方法(例如自相关分析,方差比和光谱分解)相比,使用R / S统计数据可获得更好的结果,尽管它确实存在缺点,例如对短程依赖性的敏感性(有关更多详细信息,请参见本文和这篇出色的博客文章。
R / S统计信息可以按以下方式获得。例如,考虑以下长度为n的股票收益的时间序列
与平均值的前k个偏差的部分和为:
的R / S统计量是成比例的最大值和这种总和的最小值之间的差,其中? ∈[ 1,? ]:
分母σ(n)是最大似然标准差估计量。重定范围和观测数n具有以下关系
其中H是赫斯特指数。这种缩放行为最初是由Mandelbrot和Wallis使用的,用于发现长期依赖关系。由于重定标度范围与观测值数量之间的关系是多项式,因此可以使用简单的对数对数图来计算H的值,因为
在下面的图中,赫斯特指数估计约为0.53,大约相当于随机游动。相应的代码使用该hurst库(指向Github存储库的链接在此处)。
赫斯特指数的估计值为H?0.5183。该代码使用在此处找到的Github存储库  。还有其他获得赫斯特的方法。您可以查看本文以获取更多详细信息。
结论与展望
我们看到,使用赫斯特(Hurst)指数的概念可以得出有关市场制度的非常有用的见解。掌握了这些信息后,就可以确定两种方法中的哪一种(均值回归或动量)更适合采用。
简而言之,赫斯特指数的值标识时间序列是否具有对过去事件的某种记忆。赫斯特的价值并不总是等于1/2的事实表明,有效市场假说经常被违反,根据该假说,市场是完全不可预测的。原则上,正确识别此类异常情况对于建立有效的交易策略非常有用。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Uhlenbeck augmented Ornstein Hurst指数 Leonard

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 03:21