楼主: 大多数88
1478 36

[量化金融] 统计验证的超前-滞后网络和库存预测 [推广有奖]

11
能者818 在职认证  发表于 2022-5-25 16:00:32
该技术旨在描述两名交易员行为之间的同步程度,因此,通过扩展,2018年7月27日0:50 WSPC/指令文件手稿在外汇市场7中统计验证的超前滞后网络和库存预测,以识别以类似方式行事的交易员群体。根据定义,这是一种无监督的聚类方法。第一步是将时间切割成等长δt的切片;我们任意选择δt=1小时。实际上,每个片段的持续时间必须适应每种情况。就我们数据集中的外汇交易员而言,相对于活跃交易员的典型交易模式,1小时是一个合理的选择。我们将时间片t定义为区间[t,t+δt[。对于每个时间片t,我们将所有交易者的状态分为买入(状态+1)、卖出(状态-1)、中性(状态2)和非活动(0)。用Vi(t)表示时间片t期间交易者i的总签名交易量,用Gi(t)表示时间片t期间交易者i的绝对交易量之和,定义了不平衡比ρi(t)=Vi(t)/Gi(t)。如果ρi(t)>ρ(ρ是一个小阈值),则不平衡比率将交易者描述为净买方(σi(t)=1),作为净卖方(σi(t)=-1) 如果ρi(t)<-ρ、 如果|ρi(t)|<ρ,则为中性(σi(t)=2),如果Vi(t)=Gi(t)=0,则为非活动(σi(t)=0)。ρ的选择∈ [0.01,0.1]并不重要;在下文中,我们设定ρ=0.01。由于以下分析侧重于最活跃的交易者,因此将放弃非活跃状态。一对交易者的同步性是通过计算其状态时间序列中的共同发生率来衡量的,并在假设纯粹随机的情况下,归因于反映这种同步性统计显著性的p值。

12
mingdashike22 在职认证  发表于 2022-5-25 16:00:35
针对9种共现状态中的每一种对所有交易员进行测试{-1、2、1}×{-1,2,1},需要进行多重假设检验校正。我们选择使用错误发现率[3],并将其设置为p=0.05。如果同步的p值小于FDR校正阈值,则通过验证交易员对之间的链接来构建网络;没有任何链接的交易者将被删除(有关更多详细信息,请参见[38])。请注意,与一次性统计测试相反,对于一次性统计测试,pw的此类值将非常大,并且不会控制错误发现率(即假阳性),我们在这里处理的是一组p值,其中FDR是受控的。换句话说,我们确定的SVN中平均有一部分虚假链接。因为我们主要对组感兴趣,所以这个值并不重要。产生的网络大部分时间由一个大型连接组件(即一大群连接的交易者)和其他非常小的断开连接组件组成。大型连接组件进一步分解为社区(或模块)。设计了许多方法来检测复杂网络中的社区(参见例如[30]的综述)。如[38]中所述,我们使用InfoMap方法[35],该方法根据最大熵参数对连接的网络进行分段。虽然这种方法不适用于多链路网络,但它可以处理加权网络。因此,一个简单的解决方法是通过分配等于两个交易者之间已验证链接数的权重,将多链接转换为加权链接。

13
大多数88 在职认证  发表于 2022-5-25 16:00:39
在应用社区检测时,我们排除了定位行动(买卖)之间的联系,因为我们主要感兴趣的是找到同时在同一方向上行动的交易群体,以便能够聚合给定群体的数量,并计算其状态的有意义度量。2018年7月27日0:50 WSPC/说明文件手稿8 CHALLET,CHICHEPORTICHE,LALLOUACHE,KASSIBRAKIS●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●链接-1.-11 12 2●●●●●●●●●●●●●●●●●●●●●●●●●●链接-1.-11图1。2、典型交易者网络的预测,按每小时的时间尺度(欧元/美元)确定。两个交易者之间的每一个联系都经过统计验证,并用这对交易者的等时行为来标记:(1,1)如果两者都是净买家,(-1,-1)如果两者都是净卖家,(2,2)如果两者都是中性的。Infomap社区检测方法还提供以颜色显示的群集。左:SQ2012。右:磅。。这些是复杂网络的二维投影,其中水平方向和垂直方向没有特殊意义。3.1.2。交易者同步性网络描述性统计如下,对于每个样本时间窗口,我们保留500个最活跃的交易者,并筛选出少于100个交易的交易者。我们排除了周末误入歧途的活动,因此与工作日相比,误入歧途的活动明显不同(而且要小得多)。此外,一些交易员不使用算法交易,这限制了他们的实践期,或者更喜欢在最活跃的时间进行交易。这就是为什么我们只在上午9点到下午4点(伦敦时间)交易的原因。每小时的时间切片也允许在几个月内构建SVN,这为SVN的时间演化和预测的大规模调查铺平了道路(见第4节)。

14
nandehutu2022 在职认证  发表于 2022-5-25 16:00:43
图2显示了在给定时间段内使用每小时时间片计算SVN的代表性示例。集群的数量特别令人感兴趣:虽然SQ交易者的群体数量大致保持不变(而且很大),但在LB数据集中,2014年1月之前的四个月内出现了一种特殊现象:图3显示,检测到的群体数量随后达到1,交易者之间的链接数量也出现了类似的减少。这意味着在此期间,我们的方法检测到的统计验证同步要少得多。我们无法对这一现象找到简单的解释,但很明显,单一群体的存在可以防止显著的超前滞后。Wethus预计2014年1月左右LB数据的可预测性最低(见第4.1.1节)。2018年7月27日0:50 WSPC/指令文件手稿外汇市场中经统计验证的超前滞后网络和库存预测96006507007508003540454.65.05.45.8#链接#组<大小>05-201206-201207-201208-2012#链接#群组<Size>04-201307-201310-201301-201404-201407-201410-2014年图。交易员网络:随时间变化的基本统计数据(欧元兑美元)。左:SQ 2012。右:LB.3.1.3。作为时间滑动窗口函数的聚类稳定性使我们能够检测到随时间变化的聚类,这反映了交易员随着时间的推移而使用的策略的变化(通过固定的1小时时间片检测)。他们还提出了聚类的稳定性问题,这是超前-滞后网络持续存在的必要条件,因此也是预测顺序流的可能性。通过使用一致的组标记,可以更容易地评估聚类稳定性。第一步是确保当两个时间片之间的交易者分组完全相同时,聚类工具保证组的恒定标记。

15
kedemingshi 在职认证  发表于 2022-5-25 16:00:46
实际上,在连续两次执行的聚类中,不可忽视的交易员比例并不属于同一组。因此,要解决的第一个问题是如何将连贯的名称作为时间goeson赋予簇。最简单的解决方案是在分组时间片t和t之间使用相似性度量- 1和传播群集gt的名称-1时间t时最相似的聚类。相似性度量基于两个聚类元素的重叠,并定义为asOA(gt-1,gt)=gt-1.∩ gt |,(1)其中g和gare交易者组/簇,其中| x |代表x的元素数。我们将使用归一化重叠度量2018年7月27日0:50 WSPC/说明文件手稿10 CHALLET,CHICHEPORTICHE,LALLOUACHE,KASSIBRAKISmean(标准偏差)LB EURMUSD SQ EURMUSD SQ EURMUSD SQ EURMGBP SQ USDJPYmean 0.87 0.83 0.91 0.84标准偏差0.14 0.09 0.09 0.10完美稳定性分数0.34 0 0 0.01 0表3。两个数据源的某些货币对的调整后兰德指数汇总统计数据。SQ指SQ2014-6。OP(gt-1,gt)=OA(gt-1,gt)| gt-1.∪ gt |(2)说明两个集群的大小。一致的命名允许我们生成有意义的可视化。图4显示了交易者如何根据时间在集群之间切换,使用了所谓的“河流图”:在给定的时间,属于同一组的交易者被钉在一起,形成一个连续的垂直短划线,每个组彼此明显分开。然后,将每个交易者在时间t时的分组轨迹和时间t+1时的分组轨迹相加。使用一致的组标记方法可以确保,如果两个时间步之间严格没有组的变化,则只会出现水平条纹。因此,河图允许我们在同一时间可视化群的大小和群组成的演变,即分布和动力学特性。

16
大多数88 在职认证  发表于 2022-5-25 16:00:50
很明显,有一个大的集群,其规模随着时间的变化而相对稳定。最小的集群稳定性要差得多:随着时间的推移,它们会再次合并和分裂。值得注意的是,图中每周都进行聚类:即使在这个采样频率下,聚类结构也相对稳定。3.1.4。聚类成员稳定性我们使用调整后的兰德指数(ARI),这是衡量两个连续聚类时间之间聚类稳定性的标准全局指标【34,13】。ARI为1表示完美的聚类稳定性,而randomclustering的ARI预期值为0。在大约三分之一的时间里,LB交易员的稳定性是完美的(ARI=1),这突出了LB客户的显著规律性,同时也受到了很大的平均ARI的影响。SQ的零售客户更容易受到攻击(可能是因为其中大部分客户不使用算法交易),但他们的平均ARI也非常高(见表3)。简言之,ARI表明所有数据集都具有强大且令人鼓舞的聚类稳定性。3.2。统计验证超前滞后网络确定两个时间序列之间的验证超前滞后关系主要包括检测第一个时间序列和适当滞后之间的同步性2018年7月27日0:50 WSPC/指令文件手稿统计验证超前滞后网络和外汇市场库存预测11秒时间序列。换句话说,可以将SVN机制应用于代理i的状态和代理j的滞后状态(包括情况i=j)。

17
可人4 在职认证  发表于 2022-5-25 16:00:53
在投资者的背景下,由于一些代理人使用相同的系统策略来打开或关闭头寸,或同时使用这两种策略,从而以非常同步的方式行事,因此有必要关注使用SVN和社区检测方法确定的交易群体之间的超前-滞后关系。一旦通过SVN方法确定了交易者组,程序如下:(1)交易量不平衡在组层面进行汇总:Vg(t)=Pi∈gVi(t)和群g的状态,用σg(t)表示,以与SVN方法相同的方式确定;(2) 对于每组(g,g)(g=允许的gis),σg(t)和σg(t+1)之间的一致性p值按照SVN方法计算;(3) 组对的数量是ngroupsb,因为我们允许自链接。由于状态对的数量为3x3,重要级别需要考虑NTests=9×GroupsTests,因此再次使用FDR。特别注意g→ g链接并不平凡,对应于聚合卷不平衡的自相关时间序列:这些链接在directednetwork表示中显示为循环。分组代理的优点是简化了系统状态的描述,从而降低了预测问题的维数。在某些情况下,跳过分组步骤并确定代理之间的超前-滞后可能很有用。3.2.1。结果使用与图2相同的参数检测组间的链接。我们在图5中显示了两个具有代表性的网络。最常见的链接类型是tooneself。更复杂的超前-滞后关系也存在:以SQ数据集中的第22组为例;它通常在卖出欧元美元后一小时内买入欧元美元;第31组则相反。有人指出,有趣的是,第31组在第22组售出后的一小时内售出。

18
能者818 在职认证  发表于 2022-5-25 16:00:56
这意味着,如果第22组在上一个时间段卖出了欧元兑美元,那么这两个组的行为将相反。值得注意的是,这是以一种系统的方式发生的。SQ组之间的超前-滞后链接多于LB组之间的超前-滞后链接,尤其是自链接。有趣的是,与同期相比,超前-滞后案例中存在更多验证相反方向的链接。链接数量随时间的演变如图6所示:对于SQ的所有数据集,超前滞后链接数量的突然下降都是显而易见的。从逻辑上讲,LB数据集在2014年1月前后没有超前滞后关系,这与仅检测一个组有关(见图3)。链接的存在,在严格的统计检查下有效,显然证明了投资者交易方向的可预测性。然而,预测交易流量不仅需要等时间聚类稳定性,还需要滞后稳定性。在交易者的层面上衡量后者比仅使用组间的超前-滞后更具信息性。事实上,想象一下,在时间t,第1组包括爱丽丝和鲍勃,第2组包括卡罗尔和戴夫。当t+1时,第1组分为第1a组和第1b组,第2组的组成保持不变,第1a组和第1b组仍然领先于第2组。这里的要点是,第1组和第2组之间的超前滞后进一步定义了第1组和第2组的所有交易员在时间t时的超前滞后关系。随后将第1组分为1a和1b并不会改变交易者之间的领先滞后关系。

19
能者818 在职认证  发表于 2022-5-25 16:01:00
因此,一个合适的超前-滞后稳定性度量是在两个连续聚类时间之间保持的交易者之间的超前-滞后联系的分离,仅限于在这两个时间存在的交易者。数学上,设∧ij(t→ t+1)表示在时间t和时间t+1之间的交易者水平上的超前-滞后网络的邻接矩阵元素,即∧ij(t→ t+1)=1,如果交易者i对交易者j进行赋值,否则为0,则稳定性度量定义为β(t→ t+1)=Pij∧ij(t→ t+1)∧ij(t+1→ t+2)Pij∧ij(t→ t+1)图7报告了β的时间演化。它确实影响很大,但在很长一段时间内都不会达到0,除了2014年1月的LB,总的来说,这给成功的预测留下了希望。然而,人们很容易注意到,对于LB数据,验证的超前滞后网络节点和链路的数量都要小得多。β的高值是否与更大的预测能力有关尚待研究。4.1.2.4。到目前为止,我们已经证明了一种超前-滞后结构的存在,其持续性意味着某些数量是可预测的。然而,这并不意味着订单流是简单的自回归模型。如果将ARIMA模型和一天中的小时数作为固定因素,AIC标准始终建议使用ARIMA(0,0,0)模型:在这个时间尺度上,唯一相关的因素是一天中的小时数。这些网络还提供了关于如何从交易员解析数据进行预测的重要见解。虽然未来的行动确实取决于所有组的当前状态,但任何预测方法也必须提供滞后组状态,以便学习和利用超前-滞后网络。4.1。为了简单起见,我们将群状态限制为其离散值{-1,2,+1}。这强烈建议预测总订单流量的符号,而不是其确切值。

20
可人4 在职认证  发表于 2022-5-25 16:01:03
更准确地说,我们的目标是预测v(t+1)=符号(PiVi(t+1)),2018年7月27日0:50 WSPC/指令文件手稿外汇市场中经过统计验证的超前滞后网络和库存预测13,其中我从一组预测因子中扫描了所有交易者,这些预测因子由组的状态组成,用σg,t表示(由SVNs在样本中确定),它们的滞后值σg,t-1和一天中的时间。包含滞后群状态与一阶群超前滞后的存在是一致的,因此是必要的。将v(t+1)分为{-1,0,+1},从组状态到timet的知识。培训阶段总结为Pt,t~ Wt+1,t+1,其中Pt,t是预测值的矩阵,Wt+1,t+1是待预测量的向量;更准确地说,Pt,t=σ1,tσ2,tσ1,t-1σ2,t-1h(t)。。。。。。。。。。。。。。。σ1,tσ2,tσ1,t-1σ2,t-1h(t)~vt+1。。。vt+1= Wt+1,t+1,(3)其中符号~ 这意味着,如图5所示,一条Pt线与相应的下一个全球贸易流量不平衡之间存在某种(可能是高度非线性)关系。由于talso包含一天中的时间,因此也可能检测到这些已验证的超前-滞后网络的细微小时差异。请注意,我们没有将lead-lagnetworks提供给机器学习方法,但机器学习方法会隐式地利用它们。此外,Pt、tmay还包括多次滞后的组状态。等式(3)的许多变化是相关的。首先,可以输入实际交易量(或记录交易量),而不是集团状态,v也可以是VWAP或未来价格回报(见第4.2节),等等。无论如何,我们都将重点放在最简单的设置上。VT的离散性质建议推断~ 与logistic回归的关系,这不会导致令人满意的结果(见附录A,其中有报告)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 09:36