楼主: nandehutu2022
1669 41

[量化金融] 缺失数据重尾AR模型的参数估计 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-10 18:49:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Parameter Estimation of Heavy-Tailed AR Model with Missing Data via
  Stochastic EM》
---
作者:
Junyan Liu, Sandeep Kumar, and Daniel P. Palomar
---
最新提交年份:
2019
---
英文摘要:
  The autoregressive (AR) model is a widely used model to understand time series data. Traditionally, the innovation noise of the AR is modeled as Gaussian. However, many time series applications, for example, financial time series data, are non-Gaussian, therefore, the AR model with more general heavy-tailed innovations is preferred. Another issue that frequently occurs in time series is missing values, due to system data record failure or unexpected data loss. Although there are numerous works about Gaussian AR time series with missing values, as far as we know, there does not exist any work addressing the issue of missing data for the heavy-tailed AR model. In this paper, we consider this issue for the first time, and propose an efficient framework for parameter estimation from incomplete heavy-tailed time series based on a stochastic approximation expectation maximization (SAEM) coupled with a Markov Chain Monte Carlo (MCMC) procedure. The proposed algorithm is computationally cheap and easy to implement. The convergence of the proposed algorithm to a stationary point of the observed data likelihood is rigorously proved. Extensive simulations and real datasets analyses demonstrate the efficacy of the proposed framework.
---
中文摘要:
自回归(AR)模型是一种广泛用于理解时间序列数据的模型。传统上,AR的新息噪声被建模为高斯噪声。然而,许多时间序列应用,例如金融时间序列数据,都是非高斯的,因此,具有更一般的重尾创新的AR模型是首选。时间序列中经常出现的另一个问题是由于系统数据记录失败或意外数据丢失而丢失值。虽然有许多关于缺失值高斯AR时间序列的工作,但据我们所知,没有任何工作解决重尾AR模型的缺失数据问题。本文首次考虑了这一问题,提出了一种基于随机近似期望最大化(SAEM)和马尔可夫链蒙特卡罗(MCMC)过程的不完全重尾时间序列参数估计的有效框架。该算法计算量小,易于实现。严格证明了该算法收敛于观测数据似然的平稳点。大量的仿真和实际数据集分析证明了该框架的有效性。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--
一级分类:Electrical Engineering and Systems Science        电气工程与系统科学
二级分类:Signal Processing        信号处理
分类描述:Theory, algorithms, performance analysis and applications of signal and data analysis, including physical modeling, processing, detection and parameter estimation, learning, mining, retrieval, and information extraction. The term \"signal\" includes speech, audio, sonar, radar, geophysical, physiological, (bio-) medical, image, video, and multimodal natural and man-made signals, including communication signals and data. Topics of interest include: statistical signal processing, spectral estimation and system identification; filter design, adaptive filtering / stochastic learning; (compressive) sampling, sensing, and transform-domain methods including fast algorithms; signal processing for machine learning and machine learning for signal processing applications; in-network and graph signal processing; convex and nonconvex optimization methods for signal processing applications; radar, sonar, and sensor array beamforming and direction finding; communications signal processing; low power, multi-core and system-on-chip signal processing; sensing, communication, analysis and optimization for cyber-physical systems such as power grids and the Internet of Things.
信号和数据分析的理论、算法、性能分析和应用,包括物理建模、处理、检测和参数估计、学习、挖掘、检索和信息提取。“信号”一词包括语音、音频、声纳、雷达、地球物理、生理、(生物)医学、图像、视频和多模态自然和人为信号,包括通信信号和数据。感兴趣的主题包括:统计信号处理、谱估计和系统辨识;滤波器设计;自适应滤波/随机学习;(压缩)采样、传感和变换域方法,包括快速算法;用于机器学习的信号处理和用于信号处理应用的机器学习;网络与图形信号处理;信号处理中的凸和非凸优化方法;雷达、声纳和传感器阵列波束形成和测向;通信信号处理;低功耗、多核、片上系统信号处理;信息物理系统的传感、通信、分析和优化,如电网和物联网。
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Parameter_Estimation_of_Heavy-Tailed_AR_Model_with_Missing_Data_via_Stochastic_EM.pdf (504.83 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:AR模型 缺失数据 参数估计 Applications Optimization

沙发
mingdashike22 在职认证  发表于 2022-6-10 18:49:53
通过随机EMJunyan Liu、Sandeep Kumar和Daniel P.Palomar,Fellow,IEEEAbstract估计缺失数据的重尾AR模型自回归(AR)模型是一种广泛用于理解时间序列数据的模型。传统上,AR的新息噪声被建模为高斯噪声。然而,许多时间序列应用,例如,金融时间序列数据,阿伦-高斯,因此,具有更一般的重尾创新的AR模型是首选。时间序列中经常出现的另一个问题是由于系统数据记录故障或预期的数据丢失而丢失值。虽然有很多关于高斯AR时间序列缺失值的研究,但据我们所知,对于重尾AR模型,还没有任何研究解决缺失数据的问题。在本文中,我们首次考虑了这个问题,并提出了一个基于随机近似期望最大化(SAEM)和马尔可夫链蒙特卡罗(MCMC)过程的不完全重尾时间序列参数估计的有效框架。该算法计算成本低,易于实现。严格证明了该算法收敛于观测数据似然的平稳点。大量仿真和实际数据集分析证明了所提出框架的有效性。指标项AR模型、重尾、缺失值、SAEM、马尔可夫链蒙特卡罗、收敛性分析。简介在最近的数据欺骗时代,许多应用程序收集和处理时间序列数据,用于推理、学习、参数估计和决策。自回归(AR)模型是分析时间序列数据的常用模型,在这种情况下,在时间上密切观测的观测值在统计上依赖于其他观测值。

藤椅
nandehutu2022 在职认证  发表于 2022-6-10 18:49:56
在AR时间序列中,每个样本都是一些先前观测值与惊人创新的线性组合。阶数为p、AR(p)的AR模型,定义为asyt=Д+pXi=1Дiyt-i+εt,(1)其中ytis是第t次观测,Д是常数,Дi的面积自回归系数,ε是与第t次观测相关的创新。AR模型已成功应用于许多实际应用中,如DNA微阵列数据分析[1]、EEG信号建模[2]、金融时间序列分析[3]和动物预测研究[4],等等。传统上,AR模型的创新εtof假设dt为高斯分布,由于AR模型的线性,这意味着观测结果也是如此。这项工作得到了香港RGC 16208917研究基金的支持。作者来自香港科技大学(香港)(电子邮件:jliubl@connect.ust.hk; eesandeep@ust.hk; palomar@ust.hk).高斯分布。然而,在信号处理和金融市场的应用中,由于内部数据生成机制或异常值的存在,存在时间序列为非高斯和重尾的情况。例如,stoc k返回[3]、[5]、功能磁共振成像中的bra[6]、[7]和动物种群中的黑天鹅事件[4]。对于这些情况,可以寻求一个A R模型,其创新遵循重尾分布,如学生的t分布。学生的t分布是最常用的重尾分布之一[8]。[9]和[10]的作者考虑了一个AR模型,该模型的创新点遵循了已知自由度数的学生t分布,而[11]和[12]则研究了未知自由度数的ca se。

板凳
kedemingshi 在职认证  发表于 2022-6-10 18:49:59
Student的T A Rmodel在重尾AR时间序列中表现良好,并且可以在出现异常值时提供回归系数的稳健可靠估计。另一个在实践中经常出现的问题是在数据观测或记录过程中丢失值。可能导致缺失值的原因有很多:值可能无法测量,值可能被测量但丢失,或值可能被测量但被认为不可用[13]。现实世界中的一些情况是:一些仓库可能出现流动性不足,导致没有交易,因此没有记录价格,传感器等观测设备可能在测量过程中发生故障,天气或其他条件干扰采样计划。因此,研究具有缺失值的AR时间序列具有重要意义。尽管有许多工作考虑了具有缺失值的高斯AR时间序列【14】–【17】,但对具有缺失值的重尾AR时间序列的关注较少,因为在这种情况下,由于难以解决的公式化问题,参数估计很复杂。在【9】–【12】中,用于重尾AR时间序列参数估计的fr方法需要完整的数据,因此,不适合缺少数据的场景。本文的目标是应对这一挑战,并通过期望最大化(e M)型算法开发一个有效的框架,用于在重尾tim e系列模型下从不完整数据进行参数估计。EM算法是一种广泛使用的迭代方法,用于在存在缺失值或未观测到的潜在变量时获得参数的最大似然(ML)估计。在每次迭代中,EM算法最大化完整数据可能性的条件期望以更新估计值。

报纸
kedemingshi 在职认证  发表于 2022-6-10 18:50:02
EM alg算法的许多变体已被提出,以应对不同缺失值问题中的特定挑战。例如,为了解决完全数据对数似然的条件期望的难处理性所带来的问题,EM算法的一个随机变量在[18]、[19]中提出,该算法通过从条件分布中抽取潜在变量的样本来逼近期望。由于随机EM算法的计算复杂度低于EM算法,因此它在抑制维数变化方面也很受欢迎[14],[20]。有人建议使用预期条件最大化(ECM)算法来处理像EliHo od这样的预期完整数据日志的闭合形式最大化器不可用的问题【21】。正则化EM算法已用于在参数估计中实施某些结构,如稀疏性、低秩和网络结构[22]。在本文中,我们建立了一个可证明收敛的低成本算法框架,用于从不完全时间序列估计具有重尾新息的AR时间序列模型的参数估计。据我们所知,对于这类问题不存在任何收敛的算法框架。在【9】–【11】之后,我们考虑了具有学生t分布创新的AR模型。我们提出了一个M L估计问题,并基于随机EM框架开发了一种有效的算法来获得参数s的M L估计。为了克服潜在变量条件分布的复杂性,我们提出了一种Gibbs抽样方案来生成样本。该算法不需要直接从复杂的条件分布中采样,只需从高斯分布和gamma分布中交替采样即可。建立了该算法到稳定点的收敛性。

地板
可人4 在职认证  发表于 2022-6-10 18:50:05
对真实数据和合成数据的仿真结果表明,该框架能够对不完整时间序列提供准确的参数估计,并对可能出现的异常值具有鲁棒性。虽然这里我们只关注学生的t分布创新,但提出的方法和算法的思想也可以推广到具有其他重尾分布的AR模型。本文的组织结构如下。第二节提供了问题公式。第三节介绍了EM及其随机变量的回顾。第四节推导了所提出的算法。第五节进行了收敛性分析。最后,第六节提供了所提出算法应用于真实数据和合成数据的仿真结果,第七节总结了本文。二、问题公式为简化符号,我们首先介绍AR(1)模型。假设一个单变量时间序列y,y。,YTFlowsan AR(1)型号yt=Д+Дyt-1+εt,(2)其中创新εt遵循零平均重尾学生t分布εti。i、 d。~ t型0, σ, ν. 随着自由度ν的减少,学生的t分布更重尾。注意,高斯分布是学生t分布的特殊情况,ν=+∞.给定所有参数rsν、ν、σ和ν,yt的d分布取决于所有前面的数据Ft-1,由y,y。

7
nandehutu2022 在职认证  发表于 2022-6-10 18:50:08
.,年初至今-1,仅取决于之前的样本yt-1: pyt |Д,Д,σ,ν,Ft-1.= pyt |Д,Д,σ,ν,yt-1.= 英尺yt;Д+Дyt-1, σ, ν=Γν+1√νπσΓν1+(yt- φ- ^1yt-1)νσ!-ν+1,(3),其中ft(·)表示学生t分布的概率密度函数(pdf)。在实践中,由于各种原因,某个样本yt可能会丢失,并用yt=NA表示(不可用)。在此,我们假设缺失数据机制是可忽略的,即缺失不取决于值[13]。补充:我们观察到该时间序列的D缺失块如下所示:y,yt,NA,NA,yt+n+1。年初至今,北美,NA,年初至今+nd+1,年初至今,北美,NA,年初至今+nD+1,yT,其中,在第d个缺失块中,有ndmissing samplesytd+1。,ytd+nd,由两个观测数据ytd和ytd+nd+1从左到右包围。我们将f或convenience t设置为0,n设置为0。让我们用Co表示观察值的索引集,用Cm表示缺失值的索引集。也表示y=(yt,1≤ t型≤ T),yo=(yt,T∈ Co),ym=(yt,t∈ 厘米)。假设θ=φ, φ, σ, ν∈ ΘwithΘ=θ|σ> 0, ν > 0. 忽略y的边缘分布,观测数据的对数似然isl(θ;yo)=logZp(y;θ)dym= logZTYt=2p(yt |θ,Ft-1) dym!(4) =logZTYt=2ftyt;Д+Дyt-1, σ, ν嘿!。然后,θ的最大似然(ML)估计问题可以表示为最大θ∈Θl(θ;yo)。(5) (4)中的积分没有封闭形式的表达式,因此,目标函数非常复杂,我们无法直接解决优化问题。为了解决这一问题,我们引入了EM框架,该框架通过优化原始目标函数的一系列更简单的近似来解决这一问题。三、

8
nandehutu2022 在职认证  发表于 2022-6-10 18:50:12
EM及其随机变量EM算法是一种求解缺失数据或潜在数据的ML估计问题的通用迭代算法。更具体地说,考虑到从具有未知参数θ的统计模型生成的观测数据X,参数θ的最大似然估计量被定义为观测数据l(X;θ)=对数p(X |θ)可能性的最大值。(6) 在实践中,经常出现l(X;θ)对于缺失数据或潜在数据Z没有可管理的表达式,而完整数据p(X,Z |θ)的可能性是可管理的表达式。这是EM算法可以提供帮助的时候。TheEM算法通过迭代应用这两个步骤来寻找ML估计值【23】:(E)期望值:计算完整数据集(X,Z)相对于给定X的当前条件分布Z的预期对数似然,以及参数θ(k):Q的当前估计值θ|θ(k)=Zlog p(X,Z |θ)pZ | X,θ(k)dZ,(7),其中k是迭代数。(M) 最大化:找到新的估计θ(k+1)=arg maxθQθ|θ(k). (8) 序列NL十、θ(k)EM算法生成的结果是非递减的,序列nθ(k)OAR的极限点被证明是在温和的规则性条件下观察到的数据记录可能性的平稳点【24】。事实上,EM算法是更通用的最小化算法的一种特殊选择【25】。然而,在EM算法的某些应用中,E步中的期望值无法以闭合形式获得。为了解决这个问题,Wei和Tanner提出了Monte Carlooem(MCEM)算法,在该算法中,通过基于大量缺失数据的Findependent模拟的Monte Carlo近似计算期望值[26]。

9
kedemingshi 在职认证  发表于 2022-6-10 18:50:14
MCEMalgorithm在计算上非常密集。为了减少CEM算法所需的模拟量,随机逼近EM(SAEM)算法通过一个近似过程来替代EM算法的e步,该过程通过将新的模拟与以前的模拟相结合来逼近预期[18]。在迭代k时,SAEM进行如下操作:(E-S1)模拟:从条件分布p生成L个实现Z(k,L)(L=1,2…,L)Z | X,θ(k)(E-A)随机应用程序:更新^Qθ|θ(k)根据^Qθ|θ(k)=^Qθ|θ(k-1)+ γ(k)LLXl=1对数p十、 Z(k,l)|θ-^Qθ|θ(k-1),(9) 在哪里γ(k)是一个正片大小的递减序列。(M) 最大化:找到新的估计θ(k+1)=arg maxθ^Qθ|θ(k). (10) 由于之前模拟的循环,SAEM每次迭代需要的样本量较小。L的一个小值足以确保令人满意的结果【27】。当条件分布非常复杂,且无法直接执行SAEM的模拟步骤(E-S1)时,Kuhn和L avielle建议将SAEM算法与马尔可夫链蒙特卡罗(M CMC)过程相结合,从而生成SAEM-MCMC算法[19]。假设条件分布p(Z | X,θ)是转移概率密度函数∏θ的唯一平稳分布,SAEM的模拟步骤被(E-S2)模拟所取代:基于转移概率密度函数∏θ(k),绘制实现Z(k,l)(l=1,2…,l)Z(k-1,l)·.对于每个l,序列Z(k,l)k≥0是具有转移概率密度函数{∏θ(k)}的马尔可夫链。马尔科夫链生成机制需要精心设计,以确保采样有效,计算成本不会太高。

10
可人4 在职认证  发表于 2022-6-10 18:50:18
SAEM-MCMC对于学生的t AR模型对于ML问题(5),如果我们只考虑ymas缺失数据并应用EM类型算法,缺失数据的条件分布仍然很复杂,很难最大化完整数据日志可能性的期望或近似期望。有趣的是,学生的t分布可以看作是高斯混合(Gaussianmixture)[28]。自εt~ t型0, σ, ν, 我们可以将其表示为高斯混合εt |σ,τt~ N0,στt, (11) τt~ γ(ν/2,ν/2),(12),其中τ是混合物重量。表示τ={τt,1<t≤ T}。通过将ymandτ视为最新数据,yo视为观测数据,我们可以使用EM型算法来解决boveoptimization问题。得到的完整数据可能性isL(θ;y,τ)=p(y,τ;θ)=TYt=2fN公司yt;Д+Дyt-1,στtfg公司τt;ν,ν=TYt=2(p2πσ/τtexp-2σ/τt(yt- φ- ^1yt-1)ννΓντν-1试验-ντt)=TYt=2νντν-1tΓν√2πσexp-τt2σ(yt- φ- ^1yt-1)-ντt,(13) 其中fN(·)和fg(·)分别表示正态(高斯)和伽马分布的pdf。通过一些简单的推导,可以观察到完整数据的可能性属于曲线指数族[29],即pdf可以写成l(θ;y,τ)=h(y,τ)exp(-ψ(θ)+hs(yo,ym,τ),φ(θ)i,(14),其中h·,·i是内积,h(y,τ)=TYt=2τ-t、 (15)ψ(θ)=- (T- 1) (νlogν- 日志Γν-日志σ-对数(2π)),(16)φ(θ)=ν, -2σ, -φ2σ, -φ2σ,φσ,φσ, -φφσ,(17) 最小充分统计(yo,ym,τ)=“TXt=2(log(τt))- τt),TXt=2τtyt,TXt=2τt,TXt=2τtyt-1,TXt=2τtyt,TXt=2τtyt-1,TXt=2τtyt-1#.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 19:00