楼主: kedemingshi
1132 49

[量化金融] 幼稚和未承诺成熟的一般停止行为 [推广有奖]

11
能者818 在职认证  发表于 2022-6-1 08:07:50
如果他选择在τ停止∈ T,他收到了付款J(x;τ),其中J:x×T 7→ R是一个给定的目标函数。代理打算通过选择合适的停止策略来最大化其支付。使用两个阈值类型的策略,代理在状态过程达到a或b时停止,其中a<达到两个规定的阈值。Ebert和Strack(2017)考虑了纯马尔可夫策略,这是两种基本的阈值策略。非马尔可夫停止在实践中被广泛使用。例如,股票交易中的“尾随止损”是一条非马尔可夫卖出规则。He et al.(2017)认为,在CPT路径下的赌场赌博模式中,stoppin策略严格控制着马尔可夫策略。时间τ∈ T,即他渴望实现upτ∈TJ(x;τ)。(2.1)目标泛函的一个经过充分研究的例子是预期payoffj(x;τ):=E[u(Xxτ)],(2.2),其中u:x 7→ R、 Borel可测函数,即所谓的Payoff函数;也就是说,如果他决定立即停止,u(x)是他收到的报酬。另一个例子是一般非指数贴现的问题:J(x;τ):=E[δ(τ)u(Xxτ)],(2.3),其中δ:[0,∞) → [0,1]随着δ(0)=1而减小。也可以考虑均值-方差标准,其中j(x;τ):=E[Xxτ]- γVar(Xxτ),(2.4),对于某些γ>0。在第4节中,我们将关注概率“扭曲”的目标函数,如下文(4.8)所述。作为{Xxt}t≥0随着时间的推移,可以在每一时刻重新检查并解决最佳停止问题(2.1)≥ 出现了一个自然的概念性问题:假设可以为每个x∈ 十、 ^τX和^τXxt,t>0,是否相互一致?这个问题中的“一致性”概念可以形式化如下:定义2.1(时间一致性)。假设最佳停止时间^τx∈ 所有x都存在问题(2.1)的T∈ 十、

12
nandehutu2022 在职认证  发表于 2022-6-1 08:07:53
我们说问题(2.1)是时间一致的,如果对于任何t>0和任何x∈ 十、 ^τX=t+^τXxta。s、 关于{τx}≥ t} ;(2.5)否则问题(2.1)是时间不一致的。直觉上,时间不一致意味着此时规划的最优策略在下一时刻可能不再是最优的。众所周知,问题(2.1)与(2.2)中的预期收益是时间一致的。对于一般目标函数,问题(2.1)主要是时间不一致的-例如,当涉及概率失真或应用非指数贴现时。时间的不一致性使得“动态优化”的概念完全无效,因为如果一个人不能将未来的自己投入到他今天选择的最优策略中,那么今天的最优策略在动态环境中几乎没有用处。更具体地说,对于任何给定的状态x∈ X在t=0时,假设代理找到一个最佳的停止时间^τX。他实际上想要,并且确实假设,他未来的所有自我都将遵循^τX,因此最佳值supτ∈TJ(x;τ)=J(x;^τx)。然而,在时间t>0时,他的未来自我希望遵循自己的最佳停止时间^τXxt,这可能与^τxin(2.5)的意义不一致。如果代理在时间0时不能有效控制其未来的行为,则不会执行^τx,并且最优值supτ∈因此,无法获得t=0时初始计算的TJ(x;τ)。正如导言中所讨论的,文献中描述了存在时间不一致性的三种类型的代理。naive代理只需遵循最佳停止时间τXxtat everymoment t≥ 0,而不知道基本的时间不一致性。

13
kedemingshi 在职认证  发表于 2022-6-1 08:07:57
作为一个拥有预期收益(2.2)的老练代理人,塔式法则认为:对于任何τ,e[u(Xxτ)]=e[u(Xxτ)| Ft]]∈ T和T≥ 这意味着在给定时间t的停止问题与初始时间的停止问题是一致的,只要问题尚未在t停止,就可以应用经典方法,如动态规划和鞅方法来解决它;例如,见Shiryaev(1978)和Karatzas and Shreve(1998)。相比之下,他意识到时间的不一致性,但缺乏承诺,他会制定一致的计划:他会考虑到未来自己的行为,并试图找到一种停止策略,一旦长期使用,未来的自己都不会有动机偏离它。最后,能够提交的经过身份验证的代理只需在t=0时解决一次问题,然后坚持相应的停止计划。最后一种类型的问题,即所谓的预承诺代理,实际上是一个静态(而非动态)问题,并已在各种情况下得到解决,例如Xu和Zhou(2013)中概率扭曲下的最优停止,Zhou和Li(2000)中的均值-方差组合选择,Miller(2017)中的非线性约束下的最优停止,Miller和Yang(2017)中的条件风险价值最优控制。本文的目的是研究前两类代理人的行为。事实证明,正如我们将要证明的那样,这两者的解决方案是相互关联的,并且都严重依赖于最后一种类型的解决方案。现在,我们提供了前两类代理(以下分别称为naive代理和Experience代理)停止策略的精确公式。我们首先介绍了停止法的概念,摘自Huang和Nguyen Huu(2018)的定义3.1。定义2.2(停止法则)。

14
大多数88 在职认证  发表于 2022-6-1 08:08:00
Borel可测函数τ:X 7→ {0,1}被称为(马尔可夫)停止定律。我们用T(X)表示所有停止定律的集合。停止律的概念类似于控制理论中的反馈控制律。阿斯托普定律独立于任何状态过程;然而,对于任何给定的进程,这样的法则以以下方式诱导停止决策(响应于任何当前状态)。给定X=X的过程X,每个停止定律τ∈ T(X)控制代理何时停止sx:代理在τ(Xt)产生值0时第一次停止,即在时刻lτ(X):=inf{T≥ 0:τ(Xxt)=0}。(2.6)换言之,Lτ(x)是当过程的当前状态为x时,由停止定律τ诱导的停止时间。我们首先定义了naive代理使用的停止定律。定义2.3(自然停止定律)。用{τx}x表示∈十、 T(2.1)的最佳停止时间集合,同时注意到对于某些x∈ 十、 D e fine^τ:X 7→ {0,1}by^τ(x):=(0,如果^τx=0,1,如果^τx>0或^τxd不存在。(2.7)如果^τ是Borel可测的,我们说它是由{τx}x生成的na ve停止定律∈十、 停止律^τ∈ 上文定义的T(X)描述了天然药物的行为。对于任何当前状态x>0,如果存在这样一个停止时间,则naive代理仅通过遵循最佳停止时间τx来决定停止或继续。如果^τx在某个x上不存在∈ 十、 我们必须有SUPτ∈TJ(x;τ)>u(x)(否则,我们可以取^τx=0)。虽然最佳值supτ∈无法获得TJ(x;τ),naive代理可以选择一些τ∈ τ>0 a.s.的T,使得J(x;τ)非常接近supτ∈TJ(x;τ),导致J(x;τ)>u(x)。也就是说,一个天真的代理决定继续比停在x更好∈ 十、

15
nandehutu2022 在职认证  发表于 2022-6-1 08:08:03
这就是当上述定义中不存在^τxd时,我们将^τ(x)=1的原因。关于最佳停车时间{τx}x是否为∈Xof(2.1)的选择应确保(2.7)中定义的^τ是Borel可测量的。根据标准预期支付公式(2.2),答案是肯定的。对于概率失真下的目标函数,我们将在第4节中看到,^τ在我们研究的所有示例中都是可测量的。对于非指数贴现下的具体问题,naive停止定律的制定首先出现在Huang和Nguyen Huu(2018)的备注3.3中。在这里,我们将这个概念扩展到一般设置,并允许不存在最佳停止时间的可能性。备注2.1。定义2.1中的时间一致性也可以表示为τx=Lτ(x)=inf{t≥ 0:τXxt=0}a.s。x个∈ 十、 (2.8)注意,第二个等式直接来自(2.7)。(2.5)和(2.8)之间的等效性如下所示。假设(2.5)保持不变。对于任何x∈ X和a.e.ω∈ Ohm, 允许l := ^τx(ω)≥ 0.By(2.5),^τXxt(ω)=l - t, 0≤ t型≤ l. 这将产生L^τ(x)(ω)=l = τx(ω),因此(2.8)成立。相反,假设(2.8)为真。对于任何x∈ 集{τX上的X和t>0≥ t} 我们有inf{s≥ 0:τXxs=0}=Lτ(x)=τx≥ t、 因此^τXxs6=0 f或0≤ 这意味着≥ 0:τXxs=0}=t+inf{s≥ 0:τXys=0},其中y:=Xxt。这与(2.8)一起给出了τx=t+τXxton{τx≥ t} ,即证明了(2.5)。公式(2.8)意味着naive代理将停止的时刻,即L^τ(x),与最初预先承诺的最佳停止时间(该时间是在过程处于状态x时计划的时间0)和ττx规定的时间完全相同。现在,我们使用Huang和Nguyen Huu(2018)第3.1节中介绍的博弈论论证来描述一个复杂的代理人。

16
大多数88 在职认证  发表于 2022-6-1 08:08:07
假设代理以初始停止定律τ开始∈ T(X)。在任何当前状态x下∈ 十、 代理人进行以下博弈论推理:如果我未来的所有自我都会遵循τ∈ T(X),目前应对这一问题的最佳停止策略是什么?由于代理人目前只能选择停止或继续,他只需要比较这两种不同行为产生的报酬。如果代理在当前时间停止,他将立即获得付款u(x)。如果代理选择在当前时间继续,考虑到他未来的所有自我都将跟随τ∈ T(X),代理人最终会在*τ(x):=inf{t>0:τ(Xxt)=0},(2.9),导致支付*τ(x))。注意两次停车时间之间的细微差别,L*τ(x)和Lτ(x):在任何时刻,一个人都可以在前者下继续,即使后者可能指示停止。然后可以得出一些结论:(i)如果u(x)>J(x;L,则代理应在当前时间停止*τ(x)),如果u(x)<J(x;L,则在当前时间继续*τ(x))。(ii)对于u(x)=J(x;L)的情况*τ(x)),代理在当前时间停止和继续之间是不同的;因此,现在没有激励代理偏离最初分配的停止策略τ(x)。这已经是目前最好的停止策略(或法则)(取决于τ之后的所有未来自我∈ T(X)),可总结为Θτ(X):=0,如果x∈ Sτ,1,如果x∈ Cτ,τ(x),如果x∈ Iτ,(2.10),其中τ:={x∈ X:J(X;L)*τ(x))<u(x)},Cτ:={x∈ X:J(X;L)*τ(x))>u(x)},Iτ:={x∈ X:J(X;L)*τ(x))=u(x)}分别是停止区、连续区和差异区。备注2.2。Θin(2.10)和三个区域Sτ、Cτ和Iτ的定义是由Huang和Nguyen Huu(2018)的公式推动的。在这里,函数J的目标被限制为形式(2.3)。

17
能者818 在职认证  发表于 2022-6-1 08:08:10
本文考虑了一类更大的目标泛函,具体由下面的假设2.1规定。备注2.3(不存在最佳停车时间)。我们在定义2.1中制定时间一致性的方式遵循了经济学和数学金融学的一系列文献,取决于每个州(预先承诺的)最优控制/停止时间的e xi一致性。当最优策略不存在时,如何确定时间一致性还不清楚。最近,Karnam、Ma和Zhang(2017)指出了这一问题,并提出了一种可能的方法,通过反向随机微分方程(BSDE),在不参考最优策略的情况下,公式化时间一致性。然而,我们上面描述的博弈论方法(最终导致复杂的停止策略)并不依赖于最优策略的存在。给定任意给定的停止律τ∈ T(X),上述博弈论思想给出了一个替代的停止定律,Θτ,它至少与这个复杂的代理的τ一样好。自然,平衡停止定律可以定义为在这种博弈论推理下不变的定律。这推动了下文第2.4条的定义。然而,为了贯彻这一思想,我们需要确定目标函数j的条件,在此条件下,Θτ确实是一个满足定义2.2中可测量性要求的停止定律。为此,对于任何τ:X 7→ {0,1},我们考虑τ的核,它是代理停止时的状态集合,由ker(τ)定义:={x∈ X:τ(X)=0}。备注2.4。对于任何τ∈ T(X)和X∈ 十、 Lτ(X)和L*τ(x)属于T。实际上,τ的可测性∈ T(X)impliesker(τ)∈ B(X)。

18
能者818 在职认证  发表于 2022-6-1 08:08:13
(2.11)由于过滤F的正确连续性,Lτ(x)=inf{t≥ 0:Xxt∈ ker(τ)}和L*τ(x)=inf{t>0:Xxt∈ ker(τ)}(2.12)是F-停止时间。现在,我们介绍确保Θτ可测量性的假设。假设2.1。目标函数J:(X,T)7→ 任何D的R满意度(i)∈ B(X),地图X 7→ J(x;TxD)是Borel可测的,其中TxD:=inf{t>0:Xxt∈ D} 。(2.13)(ii)对于任何序列{Dn}n∈Nin B(X)使Dn Dn+1适用于所有n∈ N、 lim信息→∞J(x;TxDn)≤ J(x;TxD),其中D:=∪n∈NDn。备注2.5。假设2.1非常温和,符合经典公式(2.2),并在非指数贴现(2.3)和平均方差标准(2.4)下停止。由于第(i)部分很容易在这些应用程序中进行验证,因此讨论重点放在第(ii)部分。在(2.2)项下,为了确保问题(2.1)得到很好的定义,施加了一个标准条件isEsup0≤t型≤∞u(Xxt)< ∞, 其中u(Xx∞) := lim支持→∞u(Xxt)。然后可以将支配收敛定理应用于getlimn→∞J(x;TxDn)=J(x;TxD)(2.14)(对于{Dn}) B(X),Dn Dn+1,D:=∪n∈NDn。同样,根据(2.3)(分别为(2.4)),为确保(2.1)定义明确,施加的标准条件为sup0≤t型≤∞δ(t)u(Xxt)< ∞ (分别为sup0≤t型≤∞(Xxt)< ∞). 然后,支配收敛定理可以应用于ge t(2.14)。对于(2.14),假设2.1-(ii)基本满足。命题2.1。假设假设假设2.1(i)成立。然后Θτ∈ T(X)每当τ∈ T(X)。证据鉴于(2.12),L*τ(x)就是Txker(τ)。因此,根据假设2.1(i),x 7→ J(x;L)*τ(x))是Borel可测的,其中Sτ、Cτ和Iτ都在B(x)中。通过(2.10)和(2.11),ker(Θτ)=Sτ∪ (Iτ∩ ker(τ))∈ B(X),这意味着Θτ:X 7→ {0,1}是Borel可测的。定义2.4(平衡(复杂)停止定律)。停止律τ∈ 如果所有X的ττ(X)=τ(X),则T(X)称为平衡∈ 十、

19
可人4 在职认证  发表于 2022-6-1 08:08:16
我们用E(X)表示所有平衡停止定律的集合。备注2.6(平凡平衡)。与几乎所有的纳什型均衡一样,存在性和唯一性是重要的问题。在我们的环境中,一个停止定律τ∈ T(X)定义为τ(X)=0,对于所有X∈ X是一个平凡的平衡。实际上,对于任何x∈ 十、 L*τ(x)=0,因此J(x;L*τ(x))=u(x)。这意味着Iτ=X。通过(2.10),我们得出所有X的Θτ(X)=τ(X)∈ 十、 为了寻找平衡停止定律,一般(和自然)的想法是对算子Θ执行定点迭代:从任何τ开始∈ T(X),取τ*(x) :=limn→∞Θnτ(x)x∈ 十、 (2.15)上述程序有明确的经济解释。首先,(复杂的)代理是一个初始停止定律τ。一旦他开始进行前面提到的博弈论推理,他就会意识到,考虑到所有未来的自我都会遵循τ,对他来说,最好的停止策略就是Θτ。因此,他从τ切换到Θτ。同样的博弈论推理意味着,考虑到所有未来的自我都将遵循Θτ,他最好的停止策略是Θτ。agentthus再次从Θτ切换到Θτ。这个过程一直持续到药剂最终达到平衡τ*, 他无法通过上述程序进一步改进的固定点和策略。从经济学的角度来看,Θ的每一个应用都对应于额外的战略推理水平。从数学上讲,我们需要证明(2.15)中的限值定义得很好,属于T(X)和satisΘτ*= τ*. 总的来说,这样的结果不容易确定,而且在很大程度上仍然是一个公开的问题。然而,当X是一个一维扩散过程时,我们将能够以一种相当完整和明确的方式推导出naive和复杂代理的停止策略。

20
mingdashike22 在职认证  发表于 2022-6-1 08:08:19
这对于具有预期效用和非指数贴现的停止问题,Huang和Nguyen Huu(2018)表明,在贴现函数和初始停止定律τ的适当条件下,定点迭代确实收敛到均衡∈ T(X);见其中定理3.1和推论3.1。这不仅是因为,在一维情况下,Xu和Zhou(2013)已经完全获得了预先承诺的停止定律,而naive策略依赖于这些定律,而且还因为定点迭代(2.15)更易于管理,并且确实会收敛到非平衡状态,这是因为关键的技术结果(引理a.1)只适用于一维过程。3平衡停止L aws:一维CaseLet X是R中的开放区间,即X=(l, r) 对一些人来说-∞ ≤ l < r≤ ∞. 考虑钻孔可测量a、b:X 7→ R、 a(·)>0,这样对于任何x∈ 十、 随机微分方程dxt=b(Xt)dt+a(Xt)dBt,X=X,其中b表示标准的一维布朗运动,具有唯一定律的弱解,且未达到X a.s.的边界,即P(Xxt∈ (l, r)t型≥ 0) = 1.定义θ(·):=b(·)/a(·),并假设pZtθ(Xs)ds<∞= 1.t型≥ 0。(3.1)引入processZt:=exp-Ztθ(Xs)dBs-Ztθ(Xs)ds对于t≥ 0,(3.2),定义为非负局部鞅。请注意,(3.1)是一个标准条件,确保RTθ(Xs)dbs对于所有t≥ 0 a.s.提案3.1。假设X是R中的开放区间,假设2.1成立,而(3.2)中定义的Z是鞅。那么,对于任何τ∈ T(X),ker(τ) Iτ,ker(Θnτ)=SΘn-1τ∪ 克尔(Θn-1τ), n∈ N、 (3.3)因此,τ*在(2.15)中定义得很好,其中ker(τ*) =序号∈Nker(Θnτ)。命题3.1的证明被归入附录A定理3.1。假设X是R中的开放区间,假设2.1成立,而(3.2)中定义的Z是鞅。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 10:12