楼主: 大多数88
1198 25

[量化金融] 梦幻机器学习:用于强化的Lipschitz扩展 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-24 09:08:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Dreaming machine learning: Lipschitz extensions for reinforcement
  learning on financial markets》
---
作者:
J.M. Calabuig, H. Falciani and E.A. S\\\'anchez-P\\\'erez
---
最新提交年份:
2020
---
英文摘要:
  We consider a quasi-metric topological structure for the construction of a new reinforcement learning model in the framework of financial markets. It is based on a Lipschitz type extension of reward functions defined in metric spaces. Specifically, the McShane and Whitney extensions are considered for a reward function which is defined by the total evaluation of the benefits produced by the investment decision at a given time. We define the metric as a linear combination of a Euclidean distance and an angular metric component. All information about the evolution of the system from the beginning of the time interval is used to support the extension of the reward function, but in addition this data set is enriched by adding some artificially produced states. Thus, the main novelty of our method is the way we produce more states -- which we call \"dreams\" -- to enrich learning. Using some known states of the dynamical system that represents the evolution of the financial market, we use our technique to simulate new states by interpolating real states and introducing some random variables. These new states are used to feed a learning algorithm designed to improve the investment strategy by following a typical reinforcement learning scheme.
---
中文摘要:
在金融市场的框架下,我们考虑一种准度量拓扑结构来构建一个新的强化学习模型。它基于度量空间中定义的奖励函数的Lipschitz型扩展。具体而言,McShane和Whitney扩展被视为一个奖励函数,该函数由对给定时间投资决策产生的效益的总体评估来定义。我们将度量定义为欧氏距离和角度度量分量的线性组合。从时间间隔开始,有关系统演化的所有信息都用于支持奖励函数的扩展,但此外,通过添加一些人工生成的状态,该数据集也得到了丰富。因此,我们的方法的主要创新之处在于我们产生更多状态的方式——我们称之为“梦”——以丰富学习。利用代表金融市场演化的动力系统的一些已知状态,我们使用我们的技术通过插值真实状态和引入一些随机变量来模拟新状态。这些新状态被用来提供一种学习算法,该算法通过遵循典型的强化学习方案来改进投资策略。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Functional Analysis        功能分析
分类描述:Banach spaces, function spaces, real functions, integral transforms, theory of distributions, measure theory
Banach空间,函数空间,实函数,积分变换,分布理论,测度理论
--

---
PDF下载:
--> Dreaming_machine_learning:_Lipschitz_extensions_for_reinforcement_learning_on_fi.pdf (845.9 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 lips PSC IPS Hit

沙发
何人来此 在职认证  发表于 2022-6-24 09:08:19
梦幻机器学习:金融市场强化学习的LIPSCHITZ扩展。M、 CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZAbstract。我们考虑一种准度量拓扑结构,用于在金融市场框架下构建新的强化学习模型。它基于度量空间中定义的奖励函数的Lipschitz型扩展。具体而言,McShane和Whitney扩展被视为一个奖励函数,该函数由对给定时间投资决策产生的收益的总体评估确定。我们将度量定义为欧几里德距离和角度度量分量的线性组合。从时间间隔开始,有关系统演化的所有信息都用于支持报酬函数的扩展,但此外,通过添加一些人工生成的状态,该数据集也得到了丰富。因此,我们的方法的主要创新之处在于我们产生更多状态的方式——我们称之为“梦”——以丰富学习。利用代表金融市场演变的动力学系统的一些已知状态,我们使用我们的技术通过插值真实状态和引入一些随机变量来模拟新状态。这些新状态用于提供学习算法,该算法旨在通过遵循典型的强化学习方案来改进投资策略。简介度量空间中的Lipschitz函数理论是自机器学习开始以来经常被考虑的理论工具。事实上,许多年前,一些早期的论文发表了关于地图Lipschitz扩展的几个理论方面,这些理论可以解释为强化学习过程的基础。

藤椅
可人4 在职认证  发表于 2022-6-24 09:08:22
作为一个例子,在1967年的论文[3]中,读者可以找到McShane和Whitney扩展的一些应用,这两个扩展在本文中被称为上下函数,用于现在可以识别为机器学习问题的问题。此外,读者可以在[50]中找到关于所谓绝对最小扩展的一些结果,这也可以被视为与机器学习方法相关的扩展程序的数学基础。此外,在[4,18,44]及其参考文献中,Lipschitz函数在机器学习中有一些明确的应用。然而,Lipschitz函数与机器学习数学框架的主要关系与Lipschitz连续性的概念有关,它允许控制所涉及函数的规律性和光滑性,如2010年数学学科分类所示。初级68Q32;46Q10。中学68T05;关键词和短语。伪度量;强化学习;Lipschitz扩展;数学经济学;金融市场;模型第三作者感谢西班牙经济与竞争部(Ministerio de Economo'a y Competitividad)和联邦快递(FEDER)在MTM2016-77054-C2-1-P赠款下的支持。2 J.M.CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZin【4】和【70,第2节】。关于为什么这些要求在几种机器学习技术中是必要的,可以在[9]中找到完整的解释;原因是,正是这种相同的条件使得Lipschitz条件在控制理论中如此相关(参见示例[15,26,41])。本文提出了一种以不同方式使用Lipschitz函数理论的新技术。我们将注意力集中在Lipschitz函数的McShane-Whitney型扩展上,它是预测动力系统下一步中报酬函数值的主要工具。

板凳
何人来此 在职认证  发表于 2022-6-24 09:08:35
本研究中考虑了几种方法,如Q-learning(Q-learning)[20,36,56],Recurtive(2,20)]和adaptive(16,34)]强化学习技术,通常从其他环境中引入工具[5,6,47]。所谓的深度强化学习是最近的一种理论背景,其中经典强化学习技术与其他一些方法一起使用,主要来自基于神经网络和其他技术的后期发展【17、27、29、74】。我们必须提到的是,由于金融序列预测问题的高度复杂性,还使用了与我们所解释的方法核心无关的其他技术。例如,已经做出了很大的努力,将文本挖掘[55,68]、情感分析[30,39]和语义分析[8,10,42]中的参数和工具添加到这些过程中。关于数学经济和金融市场模型的相关工作,我们在一个相当经典的框架中发展了我们的方法。我们对奖励函数的定义始于一种二元关系,这种二元关系类似于基于功能分析工具的市场模型的核心——社区奖二元关系(参见示例[1,Ch.8])。虽然我们的方法引用了一些概率工具,但我们并不认为我们的学习方法是基于随机参数的。然而,从哲学上讲,我们可以参考随机市场建模的一些联系,具体地说,是指所谓的连续时间市场模型,例如参见[31,Ch.2],因为在前一步中,基于我们案例中的预测奖励函数,准确地给出了关于以下步骤的决定。4 J.M.CALABUIG、H.FALCIANI和E.A.S'ANCHEZ-P'errez为了清晰地解释我们的技术,我们将重点介绍与股票市场动态相关的特定问题。

报纸
nandehutu2022 在职认证  发表于 2022-6-24 09:08:41
事实上,我们的度量并不是机器学习中使用的经典距离之一(例如,请参见[28]中第一节和第二节的注释)。我们以一种特殊的方式为Lipschitz映射使用McShane和Whitney扩展,以扩展一种新颖设计所定义的一些奖励函数。引入“梦想”以增加训练集的规模的过程还需要一些拓扑工具,这些工具基于通过特定度量相似性方法构建的等效类计算出的平均值。尽管我们所知的数学方法是新的,但读者可以在[4,19]中找到一些相关的想法。集M上的拟伪度量是函数d:M×M→ R+-非负实数的集合-如(1)d(a,b)=0,如果a=b,和(2)d(a,b)≤ d(a,c)+d(c,b)表示a,b,c∈ M、 拓扑由这样一个函数d定义:开放球定义了邻域的基础。对于ε>0,我们定义半径ε和中心ina的球∈ M asBε(a):=nb∈ M:d(a,b)<εo.(M,d)称为拟伪度量空间。本文主要研究伪度量,即d(a,b)=d(b,a)对于所有a,b∈ M、 或者度量,当且仅当a=b时,另外满足d(a,b)=0。在这种情况下,由Dreaming MACHINE LEARNING 5d定义的拓扑满足Hausdorff分离公理。然而,我们更愿意在这个更一般的背景下提出我们的一些想法,因为我们的技术的基本元素可以很容易地外推到更一般的准伪度量情况。这一事实是相关的,因为度量概念定义的不对称性(准度量情况)对于动态过程的建模至关重要,在动态过程中,时间变量的依赖性改变了与距离相关的概念。像往常一样,我们将使用metric和distance作为同义词。

地板
nandehutu2022 在职认证  发表于 2022-6-24 09:08:47
惠特尼公式,由(2.3)TW(a)给出:=infb∈M{T(b)+kd(a,b)},a∈ M、 还提供扩展。我们将在本文中使用第一种方法,尽管使用第二种方法时某些结果也是正确的,我们将对此进行解释。读者可以在[4,44]及其参考文献中找到与我们的想法直接相关的最新技术信息。具体而言,一些与机器学习函数Lipschitzextensions相关的应用工具可以在[24,33,44]中找到。关于数学分析在机器学习中的应用,可以在[64]中找到一般计划;具体而言,Lipschitzmaps的基本定义、示例和结果可在本书第5.10节和[13]中找到。我们将使用标准符号;我们写k·k,k·k和k·k∞对于“、”和`∞分别称为1-范数、2-范数(或6 J.M.CALABUIG、H.FALCIANI和E.A.S'ANCHEZ-P'EREZthe Eclidean范数)和∞-正常,像往常一样。如果X是赋范空间,我们用bx和sx分别表示X的闭单位球和单位球。3、状态度量空间和Lipschitz映射:一种机器学习算法我们将把金融市场(一个动态系统)中应用的一组策略建模为一个由n个项目(系统状态)的有限序列组成的度量空间,其中n是市场中可能发生状态变化(购买/出售事件)的次数。我们还将考虑一个奖励函数,该函数假定为已知的某一策略子集-初始“训练集”。使用我们在导言部分提到的著名的Lipschitz函数在度量空间上扩展的理论技术,我们将通过搜索这些项目的不同部分之间的“相似性”,为更大的策略集构建计算改进奖励函数的必要工具。

7
能者818 在职认证  发表于 2022-6-24 09:08:50
这将用于为创建新情况的算法提供信息——“梦想”,这将允许通过增加训练集的大小来提高过程的效率。最终结果将是定义一种典型的强化学习方法。考虑有限维实线性空间RN的一个子集Mof向量不包含0。让我们写M=Rn \\{0}。我们首先定义了一个关于M的数学公式。正如读者将看到的,我们的技术与其他强化学习方法的差异就开始于这一点。主要原因是我们的选择不允许通过Rn中的标准来定义距离。我们在这个空间中混合了角度伪距离-测地距离-和欧几里德范数。因此,由于元素和sin M之间的夹角的余弦由(3.1)Cos(s,s)=s·skskk ksk,s,s给出∈ M、 我们通过混合该角度(3.2)Θ(s,s)=πArcCos来定义距离s·sksk ksk,欧几里德分量(3.3)E(s,s)=ks- sk=VuTunxk=1s1,k- s2,k,其中s=(s1,1,…,s1,n)和s=(s2,1,…,s2,n)。这个欧几里德术语可以被Rn中的任何其他规范所替代。对于每个 ≥ 0,我们现在定义函数(3.4)d(s,s)=Θ(s,s)+E(s,s),s,s∈ M、 这将成为我们想要在模型中使用的距离的一般公式。像往常一样,我们使用相同的符号d当它被限制为M的任何子集时。通过这个定义,我们在比较表示状态/动作的向量时,试图在“度量部分”和“角度部分”之间取得平衡。度量部分给出了向量大小差异的估计值,这在模型中有着明确的意义,代表了机器学习过程中投资“量”的差异。角度部分给出了市场运行方向的想法。参数 允许我们调整每个术语的权重。引理3.1。允许 > 0

8
何人来此 在职认证  发表于 2022-6-24 09:08:53
根据上述定义,应给出以下声明。(i) 函数d是M上的伪度量 ≥ 此外,它是M上的度量当且仅当 > 0.(ii)对于 > 0,度量空间d是(拓扑)等价于E.(iii)Let > 0和S 包含包含0的开放段的Rna集。然后,对于任何扩展d*共d个到S,指标d*和E在S证明上不等价。(i) 首先请注意,Θ在M上有很好的定义。三角形不等式和对称性由函数Θ和E来满足。事实上,已知Θ是欧几里德单位球面上的度量,因此如果s、s、s∈ M,Θ(s,s)=Θ(sksk,sksk)≤ Θ(sksk,sksk)+Θ(sksk,sksk)=Θ(s,s)+Θ(s,s)。此外,任何非负系数为Θ和E的线性组合都是apseudo度量。此外,如果 > 0则d(s,s)=Θ(s,s)+E(s,s)=0意味着E(s,s)=0,因此s=s。反之亦然。(ii)取元素s∈ M和一个空心球Bd,半径r>0的r(s),用于测量d. 以元素s为例∈ 满足Θ(s,s)<r/2且(s,s)<r/(2), 请注意,它们都在Bd中,r(s)。然后,由于s 6=0,通过Θ相对于欧氏度量E的连续性,我们可以找到半径r>0的球,即r(s) {s∈ M:Θ(s,s)<r/2}。因此,取r=min{r/(2), r} 我们得到的是,r(s) Bd公司,r(s)。显而易见的质量e(s,s)=ks- sk公司≤d(s,s),s,s∈ M、 给出等价所需的反向关系。(iii)在不损失一般性的情况下考虑向量b=(α,0,0,0,…),-b类=(-α, 0, 0, 0, ...) ∈ M、 对于某些α>0。

9
nandehutu2022 在职认证  发表于 2022-6-24 09:09:06
值得注意的是,我们可以构造一个相对于E收敛到0的序列,而对于d则不收敛*.实际上,lim0<α→0kb- (-b) k=lim0<α→02α=0,butlim0<α→0天(b),-b) =lim0<α→0ArcCos公司b·(-b) kbk k- 黑色+ lim0<α→0kb- (-b) k=1。因此,这两个指标不能等同。当然,如果我们用Rn上的任何其他范数来改变欧几里德范数,那么引理3.1可以自动表述,因为所有范数在有限维空间上都是等价的。指标d定义来表示州与州之间的欧几里德距离,但也表示它们所代表的趋势:事实上,就我们正在构建的金融模型而言,如果两个向量的大小很小,事实上小到we8 J.M.CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZwant,但它们代表的是市场上相反的趋势,它们之间的距离总是大于或等于1。定义d时Θ和E的相对权重由参数调节.我们将定义一个在mt中起作用的奖励函数,该函数将通过元素s之间的对偶关系作为一个基本公式给出∈ M Rnand矢量沿着这些元素运动。我们将这些向量称为动作,它们将由任意normk·k的空间单位球面(Rn,k·k)的(倍数)向量表示。我们将为问题中要考虑的所有动作集编写一个。我们将确定奖励R:M→ 对于状态s,作为作用于s的作用函数(最大值或平均值)的R为(3.5)R(s)=s·a,s∈ M、 a∈ 其中,BSI是一个s依赖集,使用系统经验和随机程序的混合定义。

10
mingdashike22 在职认证  发表于 2022-6-24 09:09:09
最终函数将被称为R,实数函数将使用McShane公式进行扩展,以获得在所有空间M中作用的奖励的估计值。在任何情况下,正如我们将在本文的其余部分中看到的那样,对于属于M元素的所选行动集a的给定行动,始终可以将s写为s。然而,对于所有扩展值RM(s),通常无法获得此表示公式*), s*∈ 虽然可以获得一些有用的边界。让我们分析R的这种表示形式以及扩展RMin的相关边界,如下所示。下一个示例显示扩展rm不能写为状态s的标量积*和动作a∈ A、 示例。修理 > 考虑一个有两种产品(n=2)且只有两种状态的市场。考虑集合M={(1,0),(2,0)}。这两个向量都代表了市场的增长状态。考虑动作a=(50,50)和a=(0,100)为两种状态给出的奖励函数,这定义了集合a。考虑了1-范数乘以1/100,即两个动作都是集合100×S′的元素。也就是说,R((1,0)):=(1,0)·a=50和R((2,0)):=(2,0)·a=0。请注意D((1, 0), (2, 0)) = . Lipschitz常数K由K=| 0给出- 50 |/天((1, 0), (2, 0)) = 50/.因此,R的McShane扩展由m((x,y)):=max给出50- (50/)d((x,y),(1,0)),0- (50/)d((x,y),(2,0)).对于任何可能的状态(x,y)∈ R \\{0}。现在取(x,y)=(-1,0),请注意((1, 0), (-1, 0)) = 1 + 2 和d((2, 0), (-1, 0)) = 1 + 3.那么我们有((-1,0))=最大值{50- (50/)d((-1, 0), (1, 0)), 0 - (50/)d((-1,0,(2,0))}=最大值{50-· (1 + 2), 0-· (1 + 3)}.现在开始 = 1/2. 然后RM((-1,0))=最大值{-150, -250} = -150

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 19:49