楼主: nandehutu2022
766 21

[量化金融] 用随机矩阵确定预测模型中的因素数 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
68.4190
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-23 20:55:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Determining the number of factors in a forecast model by a random matrix
  test: cryptocurrencies》
---
作者:
Andr\\\'es Garc\\\'ia Medina and Graciela Gonz\\\'alez-Far\\\'ias
---
最新提交年份:
2019
---
英文摘要:
  We determine the number of statistically significant factors in a forecast model using a random matrices test. The applied forecast model is of the type of Reduced Rank Regression (RRR), in particular, we chose a flavor which can be seen as the Canonical Correlation Analysis (CCA). As empirical data, we use cryptocurrencies at hour frequency, where the variable selection was made by a criterion from information theory. The results are consistent with the usual visual inspection, with the advantage that the subjective element is avoided. Furthermore, the computational cost is minimal compared to the cross-validation approach.
---
中文摘要:
我们使用随机矩阵检验确定预测模型中统计显著因素的数量。应用的预测模型是降秩回归(RRR)类型,特别是我们选择了一种典型相关分析(CCA)。作为经验数据,我们使用小时频率的加密货币,其中变量选择是根据信息论的标准进行的。结果与通常的目视检查一致,优点是避免了主观因素。此外,与交叉验证方法相比,计算成本最小。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Determining_the_number_of_factors_in_a_forecast_model_by_a_random_matrix_test:_c.pdf (650.24 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:预测模型 Econophysics Quantitative Applications Statistical

沙发
可人4 在职认证  发表于 2022-6-23 20:55:09
通过arandom矩阵检验确定预测模型中的因素数量:cryptocurrenciesAndr'es Garc'a-Medina1,2*,Graciela Gonz'alez Far'as,1 Consejo National de Sciencia y y Tecnolog'a,Av。叛乱分子Sur 1582,Col.Cr'editoConstructor 03940,墨西哥进出口城。瓦伦西亚36240,瓜纳华托,墨西哥*安德烈斯。garcia@cimat.mxAbstractrandom矩阵测试。应用的预测模型属于缩减RankRegression(RRR)类型,特别是我们选择了一种可以被视为典型相关分析(CCA)的风格。作为经验数据,我们在hourfrequency使用加密货币,其中变量的选择是根据信息论的标准进行的。结果与通常的目视检查一致,优点是避免了主观因素。此外,与交叉验证方法相比,计算成本最小。简介加密货币是基于锁链技术的新型金融工具。硬币被定义为一系列数字签名。每个拥有者通过数字签名前一笔交易的哈希值和下一个拥有者的公钥并将其添加到硬币的末尾,将硬币转移到下一个拥有者。这种新的金融工具通过17000多个交易所以较低的交易费用、2000多种全球虚拟货币和600亿美元的交易额轻松获得,这使得加密货币成为了对普通民众非常有吸引力的投资工具。此前曾有人试图将货币的集体行为描述为工作的特征[3]。研究表明,一组以日为频率的大型货币数据集偏离了马尔琴科牧场的普遍结果【4】。此外,研究表明,生成树结构是随时间变化的。

藤椅
可人4 在职认证  发表于 2022-6-23 20:55:12
此外,在这项工作中[5]分析了比特币在一分钟到一天的长时间和不同频率水平下的幂律行为。他们得出结论,比特币在2<α<范围内表现出重尾。5跨多个交易所。他们的发现支持使用标准财务方法,因为结果的方差影响有限。相反,这项工作的目的是通过结合显然不相关的数学工具,并以新的加密货币工具为样本,提供与预测和投资问题相关的工具。因此,所提出的方法是通用的,可以应用于任何有兴趣分析的数据集。下一节将介绍加密货币数据集的预处理。接下来,在“变量选择”一节中,建议使用转移熵May 3,2019年1月17日ARXIV:1905.00545v1【q-fin.ST】2,2019年5月,从信息论的角度衡量,以区分预测变量集和响应变量集,即解决任何预测模型固有的变量选择问题。在预测模型部分,介绍了一般回归模型,其中构建了所研究的模型。然后,在高维水平上工作时,利用随机矩阵理论在所提出的多响应回归模型中选择适当数量的因子。然后,在因子数部分,针对典型相关分析的特殊情况,描述了高维统计中某些结果与降秩选择问题之间的数学关系。最后,在结论部分总结了主要研究结果,并提出了未来的工作。数据使用CoinMarketCap【2】的API,对ofp=100加密货币进行抽样,总ofn=4533次观察(见S1文件和S1表)。

板凳
mingdashike22 在职认证  发表于 2022-6-23 20:55:15
我们计算每种加密货币(k=1,…,p)和时间(t=1,…,n)的标准价格szk(t)=Zk(t+t)- Zk(t)Zk(t),(1)通过这种方式,增广Dickey-Fuller检验[6]确保所涉及的时间序列是平稳的,对于所有考虑的返回时间序列k(k=1,…,p),p值小于0.01。变量选择在尝试设置预测模型时,首先要解决的问题之一是变量选择问题。通常,在计量经济学方法中,经济理论规定哪些变量必须被视为预测变量,哪些变量必须被视为响应变量。然而,加密货币是一种新的金融工具,其背后的经济模型并不多。因此,我们采用信息方法来解决变量选择问题。2000年,T.Schreiber在信息论的背景下引入了量传递熵(TE),目的是以非对称的方式测量从一个过程到另一个过程的信息流。Letxi=x(i)和yi=y(i),i=1,N、 表示系统X和Y的观测序列。TE定义为[7]TY→X(k,l)=Xi,jp(xt+1,X(k)t,y(l)t)logp(xt+1 | X(k)t,y(l)t)p(xt+1 | X(k)t),(2)TE背后的思想是通过关联之前的样本xind yi来预测下一个值Xi+1,并量化与广义马尔可夫性质p(Xi+1 | Xi,yi)=p(Xi+1 | Xi)的偏差,其中pDenotes表示转移概率密度。如果广义马尔可夫性质没有偏差,则y对X.TE没有影响,X.TE表示为p(xi+1 | xi,yi)和p(xi+1 | xi)之间的Kullback-Leibler熵[8],量化了该假设的不正确性,并且在xind-yi交换下显式不对称。TE的一个有趣特性是,在某些条件下,它可以被视为Granger因果关系的非线性推广。

报纸
mingdashike22 在职认证  发表于 2022-6-23 20:55:18
在计量经济学中,格兰杰因果关系在向量自回归(VAR)模型的参数估计中起着重要作用。2019年5月3日2/17格兰杰因果关系假设因果关系先于结果,并且因果关系中包含唯一且不存在于其他变量的有关结果的信息。考虑联合平稳随机过程Xt,Yt。让Fxt | x(k)t-1,y(l)t-1.表示目标变量X的分布函数,条件是关节(k,l)-历史X(k)t-1,Y(l)t-那么,变量Y被称为Granger因果变量x(滞后于k,l),当且仅当[9,10]Fxt | x(k)t-1,y(l)t-1.6=Fxt | x(k)t-1.. (3) 因此,可以说,当且仅当X不独立于Y的历史时,Y-Granger导致X。存在一系列结果[11-13],表明Granger因果关系和TE统计数据之间在数据生成过程的不同方法和假设下是完全等价的,这使得TE能够构建为纯Granger因果关系的非参数检验。这种联系可以看作是自回归模型下数据因果关系与信息论方法之间的桥梁。在继续之前,我们想强调的是,对于高度非线性和非高斯数据,如许多金融工具的情况,最好通过信息方法来处理因果关系,而不是传统的格兰杰因果关系检验[10]。在实际数据应用中,我们需要根据观测数据估计TE。有几种技术可以根据观测数据估计TE,但大多数技术对数据有很大的需求,因此由于样本效应较小,通常存在偏差,从而限制了TE在实际数据应用中的使用。为了避免这种估计。

地板
可人4 在职认证  发表于 2022-6-23 20:55:22
符号转移熵(STE)已被引入置换熵的概念中【14】。在【14,15】之后,通过对时间序列xind yi的振幅值重新排序来定义符号。因此,对于给定的i,m任意振幅值,元素{x(i),x(i+l),…,x(i+(m- 1) l)},(4)按升序{x(i+(ki1)排列- 1) l)≤ x(i+(ki2- 1) l)≤ ··· ≤ x(i+(kim- 1) l)},(5),其中l表示时间延迟,m表示嵌入维数。符号被定义为^xi=(ki1,ki2,…,kim),符号的相对频率是这个过程的一个例子,让我们用时间序列{,,,,,}来估计信息论的相关香农熵测度[16]。首先,我们需要根据五对邻居的相对值来组织它们。因此,发现三对xt<xt+1{}两对,其中xt>xt+1代表置换{10}。然后,m=2的香农熵由h(2)=-(3/5)日志(3/5)- (2/5)日志(2/5)≈ 0.971. (6) 现在让我们回到TE估计的原始问题。给定符号序列{xi xi}和{yi},STE在数学上定义为[15]TSY→X=Xi,jp(^Xi+δ,^Xi,^yi)logp(^Xi+δ| Xi,^yi)p(^Xi+δ| Xi),(7)其中总和在所有符号上运行,δ表示时间步。日志以2为基数,因此TSY→Xis以位表示。2019年5月3日2017年3月3日,此时的问题是,给定的STE经验测量值是否在统计上不同于0,是否代表变量之间存在直接关系的充分证据。

7
mingdashike22 在职认证  发表于 2022-6-23 20:55:25
可以构建一个不存在这种关系的零假设,但有必要知道如果真的存在,经验测量的分布会是什么样的,然后评估样本假设存在定向关系的p值。对于discreteXandY,我们知道如果他是真的thenTSYs→除息的-→ χ(D)/(2N log2),其中自由度D是全模型和空模型中参数数量之间的差值【13】。YS表示在H下生成的Y的代理变量,这些变量具有相同的统计特性,但与X的任何潜在相关性都会被破坏。因此,distributionTSYs的代理→x必须保留p(^xi+δ|^xi),但不保留p(^xi+δ| xi,^yi)[17]。为了在预测模型的上下文中展示我们的结果,让我们将变量x(t)重命名为预测变量,将变量y(t)重命名为响应。因此,我们估计对{Xa(t),Yb(t+t) },其中a,b=1,p(=100);t=0,n- t、 存在增加了一个滞后时间来考虑预测情况。对于不同的滞后时间值,表1给出了延时L=1和p值=0.10的结果t和嵌入维数m。第三列显示了TSXsa的总和→Yb对于指数a、b的所有可能组合,只要在H下存在一个直接关系。四列中显示了保留的关系数。我们发现,在t=1和m=2,3,在10000个可能的关系中有7000多个关系。即使在m=2时达到最大值,我们也选择了m=3的情况,同时遵循get标准,即信息流总量的最大值(118.1084位)。表1:。

8
大多数88 在职认证  发表于 2022-6-23 20:55:28
STE结果t mPabTSab#{TSab>0}0 2 7.7484 42210 3 97.7024 63450 4 241.6957 7361 2 19.677 77561 3 118.1083 70671 4 351.52 10692 2 1.3937 12892 3 68.196 47012 4 442.0707 13423 2 1.3346 12403 13.8508 10703 4 333.1614 1013滞后时间的加密货币返回时间序列状态t=配对预测器响应变量x、y的0、1、2、3;嵌入尺寸m=2,,4。第三列显示了p值为0.10时的直接信息总量,而第四列显示了相同统计显著性水平下的相应保留关系数。此外,我们在图1和图2中分别显示了m=2和m=3时STE结果的热图。通常可以理解,图2中的STE值高于图1中的STE值。此外,可以注意到图1左上角的一些结构,即图2中的Sharper。左上部分是指2019年5月3日至2017年4月3日资本化程度最高的加密货币,这是因为我们的订购方式。因此,在该部门拥有最高的信息流价值是很自然的。图1:。m=2时的STE热图。颜色强度表示状态的大小。图2:。m=3的热图STE。颜色强度表示状态的大小。测量进程X和Y之间的净信息流的一个简便方法是通过归一化方向性指数(NDI),由[10]d(X,Y)=ST EX给出→Y- ST EY公司→XST EX→Y+ST Y→十、∈ [-1,1](8)该量将ST E值正则化为-1和1,使得当其中一个ST E值为零时,d(X,Y)最大化,当其相等时,d(X,Y)最小化。该指数在统计意义上不是标准化的,但它类似于衡量市场杠杆率的差异,除此之外,比较不同系统或金融部门的指标非常有用。我们将NDI应用于之前的结果t=1和m=3。

9
mingdashike22 在职认证  发表于 2022-6-23 20:55:32
为了获得更好的可视化效果,首先将2019年5月3日5月17日获得的STE值转换为有向图G=(V,E),其中节点V是不同的货币,边是应用NDI的结果值(X,Y)。在图3中,作为一个示例,一个在行方向上具有前10个加密货币的有向子图告诉我们信息是如何从一个变量流向另一个变量的,并且作为一个更具支配性的序列。例如,我们可以看到,coin eos仅从NDI度量下的其他硬币接收信息,而ripple从子网成员发送和接收信息。图3:。NDI子图。箭头方向表示信息流的方向。为了区分预测变量和响应变量,使用了图论的一些基本概念。node out degree是指向节点的边数,而node in degree是指向节点的边数。我们使用这些概念,通过提出的启发式选择规则选择预测响应变量集:oVi∈ {响应变量}如果#以度为单位≥ #外学位,oVi∈ {预测变量}如果#in degree<#node out degree,fori=1,p、 对于前10个响应和预测变量,应用该程序的结果如表2所示(整个列表见S2表)。通常,我们在加密货币的p=100返回时间序列集合中找到了49个预测变量和51个响应变量。现在,一旦找到了一组预测响应变量,我们将展示通用回归模型,该模型已被用作预测响应变量的框架。因此,在下一节中,将介绍该模型和相关的银行确定问题,这就需要研究随机矩阵的一些结果。2019年5月3日6/17表2。

10
mingdashike22 在职认证  发表于 2022-6-23 20:55:35
预测变量和响应变量。i预测(49)响应(51)1以太坊比特币2 neo ripple3 dash比特币现金4 monero litecoin5 lisk cardano6比特币gold stellar7 tether eos8 steem iota9人口众多的nem10 siacoin以太坊经典。。。。。。。。。前10个预测变量和响应变量按大写顺序排列,根据上述启发式标准进行选择。所选变量的总数显示在括号中。预测模型考虑[18]s×1Y=s×1u+s×r,Cr×1X+s×1ε(9)给出的降阶回归(RRR)模型,其中u和未知回归参数,模型的不可观测误差变量ε的平均值E(ε)=0,协方差矩阵cov(ε)=E{εεετ}=∑ε,与经典多元回归模型的区别在于,回归系数矩阵C的秩为deficientrank(C)=t≤ 最小值(r,s)。(10) 秩条件意味着模型中回归系数集可能存在许多线性约束。给定样本X、Y的观测值,目标是以最佳方式估计参数u和c。因此,其思想是最小化目标函数w(t)=E{(Y-u -CX)Γ(Y)- u - CX)},(11)其中,Γ是一个确定的正对称权重矩阵,并且X的联合分布上的期望值istaken,Y.RRR可以被视为几个经典多元过程XRS输出变量的统一处理,这些变量与输入变量相同,此外,集Γ=I,然后我们有Harold Hotelling的主成分分析和探索性因子分析。如果我们设置Γ=∑-1YY,然后我们有霍特林的典型变量和相关分析。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 03:48