楼主: 大多数88
1199 25

[量化金融] 梦幻机器学习:用于强化的Lipschitz扩展 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-24 09:09:13
由于A中的所有动作都属于半径为100的球,所以我们不能写RM((-1, 0)) =(-1,0)·对于任何a∈ A、 在本节的其余部分中,我们展示了一些有界性结果,这些结果补偿了扩展RMA作为标量积表示的不足。虽然这种简单的机器学习9表示法并不总是可行的,但至少我们可以使用标量积来控制范围和建议公式的差异。当作用集A由单位分割的倍数定义时,即单位球面的向量集“所有坐标大于或等于0”时,给出了一种相关情况。我们将为这个集合写Sn,+\',我们将考虑因子100。这是一个标准问题,即根据市场预测,在给定的一组产品中分配固定金额的资金。因此,在本节中,我们将把集合A视为100×Sn,+`的子集,以便处理下注givenas%。然而,读者会注意到,对于任何范数的任何其他有界集,相同的参数和结果可以很容易地适应。具体地说,我们考虑M,AM,R={a上的下列作用集∈ 100×Sn,+`:a=AS对于某些s∈ m这样R(a)=s·as}。提案3.2。让M M是(Rn \\{0},k·k)的紧子集。考虑函数R:M→ R使得每个s∈ Mthere is a functional as∈ AM,R100×Sn,+`这样R(s):=s·as,s∈ M、 然后针对每个s*∈ M有一个函数as*∈ AM,R如| RM(s*) - s*· 像*| ≤ 分钟∈M100 ks- s*k∞+ KΘ(s,s)*) + KE(s,s)*).证据修复s*∈ M、 首先注意,由于RMis是一个Lipschitz函数,其Lipschitz常数K和R相同,所以对于每个元素s∈ Mwe拥有| RM*) - R(s)|≤ Kd公司(s)*, s) 。立即修复s∈ M

12
mingdashike22 在职认证  发表于 2022-6-24 09:09:25
第二个坐标是今天开盘时的初始值除以100,第三个坐标是前一天市场记录的投资总额除以10。包括权重是为了避免投资绝对值的巨大差异。然而,为了计算每天之后的回报函数值,即所做投资的真实价值,我们需要确定其他集合D,根据一天结束时的余额、一天中的最大变化和相对全球投资量。我们调用D的向量,一旦知道,就调用与状态相关的状态值。作用集必须被解释为这些状态上的标量函数,通过对偶作用。这些行为将投资策略呈现为3个坐标向量,这些坐标向量在范数中有界:坐标的符号表示行为必须是正的还是负的;例如,如果最终坐标为正,则建议决策者购买。每个坐标的大小表示建议对三个行动项目中的每一项施加多大的影响。如前一节所述,与每个提议的行动相关联的报酬是状态和行动的标量积。对于已知状态(即,对于已传递的状态),这是由与给定状态和动作关联的状态值向量D的标量积给出的。对于已经通过的状态,将用于比较模型结果的最佳奖励是通过将状态值向量与所选动作集最大化来计算的,如果所考虑的动作都是单位ballB中的向量,则给出状态值向量的2-范数。12 J.M.CALABUIG、H.FALCIANI和E.A.S'ANCHEZ-P'EREZ(B)学习程序旨在逐步扩展向上功能。

13
mingdashike22 在职认证  发表于 2022-6-24 09:09:42
我们将使用McShane公式进行扩展。扩展RMis应该外推相同的概念-给定状态的成功-保留Mand M的度量关系。由于它显式出现在公式中,我们必须计算奖励函数r的Lipschitz常数K,以得到扩展RM,相同的K对其有效。我们在空间中定义度量的方式允许获得该扩展的理论界,如命题3.2所述。然而,请注意,通常我们无法预期RM(s)可以表示为属于100×B(M,k·k`)的正部分的动作。这在第3节的示例中显示;这里还讨论了这种表示公式的一般行为,作为命题3.4及其推论的推论。(D) 最后,我们将使用rm模拟新的状态时间序列的奖励,以执行我们的强化学习算法。为了做到这一点,我们随机生成新的状态以增加集合M。我们以这种方式创建了一个比M大的新的开创性集合Mbigger,其中我们混合了“已知情况”(s∈ M) 还有新的,我们称之为“梦”(s*∈ 我们选择的已知病例和梦的选择率为β=50%。5、训练与梦想:用于强化学习算法设计的真实市场奖励函数的Lipschitz近似。我们将在本节中对前面介绍的方法的应用进行分析,比较我们的算法和其他标准技术提供的结果,以及后验计算的最优策略。5.1. 货币市场中Lipschitz扩张的效率分析。按照4.1中解释的程序,我们首先确定了测试我们的方法必须使用的相关集合。

14
mingdashike22 在职认证  发表于 2022-6-24 09:09:55
神经网络的体系结构在所有情况下都是相同的:一层有可变数量的神经元。在第一种情况下,考虑对应于50天先前经验和40个神经元的数据集(在3个坐标下训练的3个网络中)。第二种情况使用100天的数据集,有70个神经元,第三种情况使用150天的数据集,有100个神经元。在每个步骤中,新的训练数据集都包含以前的数据集。结果如图3所示。可以看出,我们提出的算法给出了易于解释的结果(图2)。一些数值(十分之一)如表所示??。首先,可以看出,与最优投资的比较表明,机器学习的成功程度是合理的。由于lackof体验的原因,第一步的累积回报率为负,但很快就会开始改善,在前20步中,回报率约为最佳回报的50%。这一刻之后增长缓慢;然而,可以看出,累积回报有时会减少,但全球行为却在增加。神经网络也给出了正的累积回报,尽管在三个案例中有两个案例的结果更差。值得注意的是,神经网络从一开始就用至少50天的实际经验对应的数据进行训练,而我们的方法使用k- 第k天为1天。读者可以借助表格???比较结果??,其中,包含50100天和150天信息的数据集训练神经网络的预测值分别显示在前3列中,以及我们的方法(第4列)和计算的最佳回报后验概率(第5列)的结果。

15
何人来此 在职认证  发表于 2022-6-24 09:09:59
此外,请记住,McShane公式根据距离所考虑的状态很远的数据(相对于我们定义的距离)计算得出的惩罚值:这是一个最大值,负系数正是由该距离定义的。在神经网络的情况下,通常无法预期这种一致性行为,因为人们无法控制拟合方法的自由参数。5.2. 为parallelinvestments中的强化学习程序创造梦想。让我们通过进一步指定4.2中解释的示例,继续介绍程序。假设我们正在分析一个有四种类似产品的既定市场。事实上,正如读者可以从下面的图表中看到的那样,它们的价格动态是等价的。我们有从1到800的每分钟值的完整序列。正如我们在第4.2节中所说的,为了简单起见,我们假设在过程开始时,所有产品的值都等于0。奖励函数已知的Mof已知状态集被视为已注册状态的前一半。让我们看看我们如何确定问题的数学表示。(1) 系统的状态由四个坐标向量s给出:正如我们在第3节中所解释的,每分钟向量给出每个乘积值的累积增加或减少。由于我们希望使用标度积和表示动作的向量来定义奖励函数,并且我们希望包括不投资的可能性,因此我们通过添加第五个空坐标来扩展向量s。对于扩展向量,我们保留相同的符号s。我们考虑在每分钟应用一系列“赌注”。

16
mingdashike22 在职认证  发表于 2022-6-24 09:10:02
它们对应于我们在4.2中所说的一系列“行动”,在这种特殊情况下,被描述为决策者现在要在每个市场上使用的资金的%(包括不投资某一部分)。决策者在每一步投资100个货币单位。(2) 现在修复系统的(五个坐标)状态。奖励函数:M×a→ 然后,R被定义为两(向量)变量函数,由状态s和动作a的标度积给出,R(a,s)=a·s。在这一点上,我们介绍了关于强化学习的第一个论点。其主要思想是使用类似情况下已知的信息来计算奖励函数R:M→ R、 仅取决于州。18 J.M.CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZFigure 4。真实市场体验:用于培训模型的一组状态。表示市场上所有产品的累积值。请注意,这与第4.1节中介绍的另一种情况有所不同,因为在这种情况下,奖励函数及其扩展是根据成对(状态、行动)定义的。这是相关的,因为我们将使用这个奖励函数来评估系统的状态。为了明确这一点,我们使用以下程序。对于系统s的状态,我们定义(s):=平均值{R(a,s):a∈ A.∪ B} ,其中平均值是根据以下内容中所述的两组A和B进行计算的,其大小比例分别为90%和10%。第一组A-90%是通过使用已经检查过的行动/赌注A确定的,并且在类似于s的状态下行动时获得了足够好的奖励函数值。这是通过选择在这些状态下行动时给出最高奖励函数值的赌注来实现的。

17
能者818 在职认证  发表于 2022-6-24 09:10:09
50%真实数据+50%梦想的模拟。全部随机选择但最优的一组赌注as和as*代表表示,当决策者面临投资市场的问题时,他应该采取行动。图5显示了图4所示状态的一组合适的最佳下注的表示。如我们所示,我们的技术的主要工具是计算奖励函数的theMcShane扩展。为了阐明基于McShane-Whitney扩展定理的计算,我们提供了一种算法方案(算法??)。(4) 最后,我们对模型的结果进行了检验。我们假设我们在t=0时开始押注市场,使用1000个货币单位,当我们松开所有货币单位时停止押注。为了检验模型是否成功,我们进行了一次模拟,首先考虑到奖励函数纯粹是通过市场信息获得的(图5),其次是使用50%的梦想。为了做到这一点,我们使用了经验的第二部分。在第一种情况下,该系统使用前400分钟的所有信息进行训练(图6),在第二种情况下,只有50%的状态+50%的梦(图7)。在这些图中,可以看到每个州的四种市场产品之和的价值,其中对每种产品的投资都是应用前几个阶段获得的行动/赌注的结果。模型成功的衡量标准是生存时间。对于第一种情况(图6),我们使用了为集合M获得的一组动作,如图5所示。据推测,情况应该与经验中的培训部分相似。

18
可人4 在职认证  发表于 2022-6-24 09:10:12
然而,如果在第一部分经验中记录的市场情况中,状态s没有准确出现,我们通过距离相似性来近似其值,应用actionas,其中是满足d(s,s)达到其最小值的M元素。第二幅图(图7)显示了相同的累积结果:将最佳行动序列应用于相同的状态序列,在每个状态下获得的总价值,在这种情况下,50%的梦境都获得了最佳行动序列。正如读者所看到的,进化和测量时间是相似的,因此两种模型的成功率是可比的。也就是说,通过使用50%已知数据的McShane扩展,而不是100%真实数据,可以在21世纪的机器学习中获得相同的结果。备注5.1。o 请注意,梦和真实状态具有不同的性质。真实状态直接来自于对系统的观察,而梦则是艺术生成的状态,通过某种相互作用混合真实成分,还添加一些随机成分,如本节所述。o 我们的模型允许创建一个自动预测系统,该系统可以随时引入更新的数据。我们的模型在金融市场的直接实施提供了一个自动系统,可以随时为投资者提供最佳投资建议。从广义上讲,市场数据分析应用程序将由一种算法提供,该算法将为分析师提供其投资的模拟,帮助他从市场趋势中获益。o 与神经网络不同,McShane公式提供了一种方法,如果所考虑的状态与用于估计其值的状态相差很远,则会对预测的奖励值进行惩罚(只需看看公式)。

19
能者818 在职认证  发表于 2022-6-24 09:10:15
这是一种基于连续性的外推,由于在每个状态下保留了Lipschitz常数,因此可以对其进行量化。o 正如我们在第5节第3部分中所说,可以使用其他扩展公式代替McShane扩展。我们可以提出一种改进选择的简单方法:只需选择McShaneand Whitney公式的最佳凸组合(这在某种程度上代表了[3]中使用的上下标签所建议的“极端扩展”)。利用问题中的一些实际数据和蒙特卡罗估计,可以估计凸组合的最佳参数。结论我们展示了一种强化学习方法,为金融市场投资提供了一个专家系统。第一个引入的工具涉及通过使用与系统其他已知状态的度量相似性来近似奖励函数,它基于度量空间上的经典机器学习方案和保留Lipschitz常数的实函数的McShane扩展。关于这一点,主要的新颖之处在于所使用的非标准度量,它结合了测地距离(与向量的余弦相似性直接相关,并对市场趋势的方向进行了建模)和欧几里德立场(无法定义为与基础有限维线性空间中的规范相关)。我们的技术的第二部分包括开发一种新的强化学习程序,该程序允许使用金融市场上的一组较小的Mof经验,以获得一种良好的投资工具,在市场中发挥作用。基本上,我们将使用邻域上的奖励函数近似与使用McShane公式的奖励函数的Lipschitz保持扩展相结合。

20
可人4 在职认证  发表于 2022-6-24 09:10:18
因此,本文的贡献之一是表明,金融市场投资专家系统可以通过基于Lipschitz映射扩展的强化学习方法替代特定市场上的大量经验来完成。由于获得的结果是22 J.M.CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZcomparable,我们的技术为使用更少的经验数据建立类似效率的模型开辟了可能性。7、致谢这项工作得到了科学部、Innovaci\'on y Universidades、Agencial Estatal de Investigaciones和FEDER(西班牙)的支持。[授权编号:TM2016-77054-C2-1-P.]参考文献[1]Aliprantis,C.D.,和Burkinshaw,O.,Local solid Riesz Space with applications to Economics。数学调查和专著第105号。美国数学学会。,罗得岛州普罗维登斯,2003年。[2] Almahdi,S.和Yang。S、 Y.,一个适应性投资组合交易系统:一个风险回报组合优化,使用预期最大提取的循环强化学习。专家系统与应用87(2017):267-279。[3] Aronsson,G.,满足Lipschitz条件的函数的扩展。阿尔基夫·福尔·马泰马提克,6(6)(1967):551-561。[4] Asadi,K.,Dipendra,M.,和Littman,M.L.,基于模型的强化学习中的Lipschitz连续性。arXiv预印本arXiv:1804.07193(2018)。第35届机器学习国际会议记录,瑞典斯德哥尔摩,PMLR 802018。[5] Bekiros,S.D.,具有自适应模糊动作关键强化学习的异质交易策略:一种行为方法。《经济动力与控制杂志》,34.6(2010):1153-1170。[6] Bekiros,S.D.,不确定条件下日内交易中的启发式学习。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-5 19:39