楼主: 大多数88
2268 46

[量化金融] 具有递归偏好的动态规划:最优性和 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-11 06:30:57
对应关系Γ反过来定义了可行状态行动对的集合:={(x,a)∈ X×A:A∈ Γ(x)}。设满足w6 w的wbe有界连续函数,oV为满足w6 V 6 w的所有Borel可测函数,C为V中的连续函数。V和C都被理解为候选值函数的类。这些函数分别作为生存期值的下限和上限。他们的角色将在下文中明确。当前和未来的支付被纳入状态行动聚合器H中,该聚合器将可行的状态行动对(x,a)和v中的函数v映射为实际值H(x,a,v)。H(x,a,v)的解释是总的终身奖励,取决于当前行动a,当前状态x和使用v来评估未来状态。换句话说,当v表示值函数时,H(x,a,v)对应于Bellman方程的右侧。第3.1节给出了一个简单的示例。引言中讨论了凸度和凹度的中心作用。为了实现相应的限制,我们将H值称为凸ifH(x,a,λv+(1- λ) w)6λH(x,a,v)+(1- λ) H(x,a,w)表示每个(x,a)∈G、 λ∈ [0,1]和v中的v,w。类似地,当反向不等式成立时(即当-H为凸值)。我们考虑的每个问题都会受到这些限制之一。我们还施加了在每种情况下都会假设的一些基本属性:假设2.1。下列条件成立:(a)可行对应关系Γ是非空的、紧值的和d连续的。(b) 地图(x,a)7→ H(x,a,v)是Borel可测的∈ V和连续ONG每当V∈ C(c) 国家行动聚合器满足6 v′==> H(x,a,v)6 H(x,a,v′),适用于所有(x,a)∈G

12
kedemingshi 在职认证  发表于 2022-6-11 06:31:00
(2) (d)所有(x,a)inG的功能wand wsatisfyw(x)6 H(x,a,w)和H(x,a,w)6 w(x)(3)。(a)和(b)的主要作用是获得解的存在性。如果状态和动作空间是离散的(有限或可数有限),那么我们采用离散拓扑,在这种情况下,(a)和(b)中的连续性要求自动得到满足,而如果(x)对每个x都是有限的,则满足了对Γ的紧凑性要求。条件(c)提出了自然要求,即更高的连续性值会增加寿命值,而条件(d)是一致性要求,允许wand wto作为寿命价值的上下限。在本文的其余部分,assum ption2.1中的条件都是正确的。设∑是从X到a的映射族,以下称为所有可行策略的集合,使得每个σ∈ ∑Borel可测量且满足σ(x)∈ Γ(x)表示所有x∈ 十、 引理2.1。映射w(x):=H(x,σ(x),v)是所有v的v元素∈ 五、证据(x,a)7的Borel可测性→ H(x,a,v)和σ意味着w在x上是Borel可测的。此外,由于w6 v,(2)和(3)中的不等式意味着所有x的w(x)6H(x,σ(x),w)6H(x,σ(x),v)。特别是w6 w。一个类似的论点给出了w6 w,所以w∈ 五、给定σ∈ ∑,函数vσ∈ 满足Vσ(x)=H(x,σ(x),Vσ)的所有x∈ X(4)称为σ-值函数。值vσ(x)可以解释为以下策略σ的寿命值。下面讨论其存在性和唯一性。2.1. 最大化。我们从研究价值最大化开始。我们的关键假设是,状态行动聚合器满足值凸性,并具有严格的上解:假设2.2(凸规划)。

13
能者818 在职认证  发表于 2022-6-11 06:31:03
满足以下条件:(a)H是值凸的。(b) 存在ε>0,使得H(x,a,w)6 w(x)- ε表示所有(x,a)∈G、 请注意,(b)部分是(3)中条件之一的强化。提案2.2。如果假设2.2成立,那么对于∑中的每个σ,集合V实际上包含一个σ-值函数Vσ。命题2.2向我们保证,给定政策σ的值vσ已明确定义。在此基础上,我们可以引入关于最大化决策问题的最优性。特别是在当前环境下,政策σ*∈ ∑称为最优ifvσ*(x) >vσ(x)表示所有σ∈ ∑和所有x∈ 十、 与此规划问题相关的最大值函数是map v*定义为x∈ X byv*(x) =supσ∈∑vσ(x)。(5) 从假设2.1的条件(c)和(d)可以看出,v*定义为X和d满足w6 v的面积值函数*6 w.A功能v∈ V满足Bellman方程ifv(x)=maxa∈Γ(x)H(x,a,v)对于所有x∈ 十、 (6)与abs Track动态程序相关的行李员操作员T是一个地图发送v,以C输入T v(X)=maxa∈Γ(x)H(x,a,v)。(7) 由于v在C中,最大值的存在由假设2.1保证。根据Berge的极大值定理,T v是C的一个元素。显然,C中Bellman方程的解与T的固定点完全一致。凸规划条件导致以下中心结果:定理2.3。如果假设2.2成立,则(a)Bellman方程在C中只有一个解,该解为v*.(b) 如果v在C中,则Tnv→ v*在X上均匀分布为n→ ∞.(c) ∑中的策略σ是最优的当且仅当σ(x)∈ argmaxa∈Γ(x)H(x,a,v*) 对于所有x∈ 十、 (d)至少存在一个最优策略。定理2.3中T的不动点和收敛结果依赖于Du(1990)提出的单调凸算子的不动点定理。

14
nandehutu2022 在职认证  发表于 2022-6-11 06:31:06
在这里,收敛是一致几何的:存在常数λ∈ (0,1)和K∈Rsuch thatkTnv公司- v*k 6λnK,适用于所有n∈Nand v∈ C2.2. 最小化。接下来我们讨论最小化。在此设置中,假设2.2中的凸性和严格上解被凹性和严格下解所取代。为了保持与其他来源的一致性,我们承认与第2.1节“最大化”相关的术语有些过重。例如,最优策略现在将引用最小化策略而不是最大化策略,Bellman方程将从最大化转换为最小化。相关定义将从上下文中明确。下一个假设类似于假设2.2,用于最大化。假设2.3(凹形程序)。满足以下条件:(a)H为值凹。(b) 存在ε>0,使得所有(x,a)的H(x,a,w)>w(x)+ε∈G、 请注意,(b)部分是(3)中条件之一的强化。提案2.4。如果假设2.3成立,那么对于∑中的每个σ,集合V实际上包含一个σ-值函数Vσ。命题2.4模仿了命题2.2,向我们保证,在当前背景下,给定政策σ的成本vσ已得到很好的定义。A政策σ*∈ ∑则称为最优ifvσ*(x) 所有σ均为6 vσ(x)∈ ∑和所有x∈ 十、 与此规划问题相关的最小成本函数是函数v*定义于x∈ X byv*(x) =infσ∈∑vσ(x)。(8) A函数v∈ V满足Bellman方程ifv(x)=mina∈Γ(x)H(x,a,v)对于所有x∈ 十、 (9)与abs拖拉机动态程序相关的行李员操作员S是一个地图发送V,在C intoSv(X)=mina中∈Γ(x)H(x,a,v)。(10) 与定理2.3类似,我们有定理2.5。

15
大多数88 在职认证  发表于 2022-6-11 06:31:09
如果假设2.3成立,则(a)Bellman方程(9)在C中只有一个解,该解是最小成本函数v*.(b) 如果v在C中,则Snv→ v*在X上均匀分布为n→ ∞.(c) ∑中的策略σ是最优的当且仅当σ(x)∈ 阿格米纳∈Γ(x)H(x,a,v*) 对于所有x∈ 十、 (d)至少存在一个最优策略。3、应用在本节中,我们研究一系列应用程序,展示如何使用第2节中的一般结果来解决导言中讨论的动态编程问题。3.1. 可加分离的决策过程。值得注意的是,上述结果与传统的Bellman–Blackwell收缩映射动态规划方法一样,可以应用于标准可加可分情况。要看到这一点,请考虑Stokey et al.(1989)的通用动态p编程模型,Bellman方程v(s,z)=maxy∈Γ(s,z)F(s,y,z)+βZv(y,z′)P(z,dz′)(11) 超过(s,z)∈ S×Z。这里S和Z是紧度量空间,分别包含内生和外生状态变量的可能值。设Z上的转移函数p具有Feller性质,使可行对应关系Γ:S×Z→ S是紧值连续的,设F:G→Rbe连续,且β位于(0,1)。我们将此模型转换到我们的环境中,将x:=(s,z)作为状态,x:=s×z作为状态空间,a=y∈ S为动作,设定h((S,z,y,v)=F(S,y,z)+βZv(y,z′)P(z,dz′)。由于F在紧集上是连续的,因此存在一个有限常数M,其中F为6 M。对于括号函数,wwe fixε>0,并采用常数函数w≡ -M1级- β和w≡M+ε1- β.假设2.1的条件均已满足。假设条件(a)和(b)为真,条件(c)无需验证。为了看到假设2.1的条件(d)成立,我们注意到,wand wlie在bcX中。

16
能者818 在职认证  发表于 2022-6-11 06:31:12
此外,对于任何给定((s,z),y)∈G、 wehaveH((s,z),y,w)=F(s,y,z)- βM1- β> -M- βM1- β=w(s,z)。类似地,H((s,z),y,w)=F(s,y,z)+βM+ε1- β6 M+βM+ε1- β=w(s,z)- ε.最后一个不等式不仅给出了假设(d)部分所要求的H((s,z),y,w)6 w(s,z),而且给出了假设2.2(b)部分中更强的条件。因此,根据Tychono ff定理,TotainGof在乘积拓扑中是紧的。验证定理2.3的要求,我们只需检查假设2.2第(a)部分中的凸性条件。但这是直接从线性的期望。因此,定理2.3适用。3.2. Epstein Zin首选项。Epstein和Zin(1989)提出了一种寿命价值规范,将替代和风险规避的跨期弹性分离并独立参数化。值由CES aggregatorUt=h(1)递归定义- β) C1类-ρt+β{Rt(Ut+1)}1-ρi1-ρ(0<ρ6=1),其中{Ct}是消耗路径,Utis是从timet开始的路径的效用值,Rtis是Kreps-Porteus确定性相等的运算符(Ut+1)=EtU1-γt+11.-γ(0 < γ 6= 1).这里,Et代表针对周期t信息的条件期望。值1/ρ表示复合商品和确定性等价物之间的跨期替代弹性(EIS),而γ则表示相对于非暂时赌博的相对风险厌恶(RRA)水平。经验上最相关的情况是ρ<γ,这意味着代理人倾向于早期解决不确定性(见Bansal和Yaron(2004)或Schorfheide et al.(2018))。

17
kedemingshi 在职认证  发表于 2022-6-11 06:31:15
接下来我们将重点关注这个案例。在Epstein–Zin偏好下,(11)中的一般可加分离Bellman方程变为SV(s,z)=maxy∈Γ(s,z)(r(s,y,z)+βZv(y,z′)1-γP(z,dz′)1.-ρ1-γ)1-ρ(12)(s,z)∈ S×Z,wher e,here and below,r(S,y,Z):=(1- β) F(s,y,z)1-ρ.我们对第3.1节中讨论的基本体提出了相同的条件。特别地,F是连续的,P是Feller,Γ是连续的且紧致值,S和Zare紧致。确保F(s,y,z)1-ρ总是很明确的,我们也假设F是非常正的。3.2.1. ρ<γ<1的情况。正如Hansen和Scheinkman(2012)所述,我们从连续严格递增的转换^v=v1开始-γ、 这允许我们将(12)重写为^v(s,z)=maxy∈Γ(s,z)(r(s,y,z)+βZ^v(y,Z′)P(Z,dz′)1/θ)θ(13),其中θ:=1- γ1 - ρ.由于该变换是双射的,因此vand^v之间存在一对一的对应关系,即v在d仅在^v解(13)时解(12)。注意,在当前设置中,我们有θ∈ (0, 1).对应于(13)isH((s,z),y,v)=(r(s,y,z)+β的状态动作聚合器HZv(y,z′)P(z,dz′)1/θ)θ. (14) 对于括号函数wand w,我们将δx>0,取常数函数Sw:=m1级- βθ和w:=M+δ1- βθ、 其中m:=最小值((s,z),y)∈Gr(s,y,z)和M:=最大值((s,z),y)∈Gr(s、y、z)。(15) 这些值是有限的和正的,因为F在紧域上是连续的和正的。魔杖是恒定的,是连续的。现在,我们证明假设2.1和2.2的条件都是满足的。根据假设2.1,条件(a)在假设中是真的,而条件(b)紧随F的连续性和P的Feller性质。条件(c)很容易验证,因为对于任何b>0的情况,标量m apψ(t):=(b+βt1/θ)θ(t>0)(16)是单调递增的。

18
nandehutu2022 在职认证  发表于 2022-6-11 06:31:18
要检查条件(d),请注意,对于固定((s,z),y)∈G、 我们有h((s,z),y,w)=r(s,y,z)+βm1- βθ>m+βm1- βθ=w(s,z)。类似地,H((s,z),y,w)=r(s,y,z)+βM+δ1- βθM+βM+δ1- βθ、 在这种情况下,F的正性可以减弱为非负性。或者,用一些r环,H((s,z),y,w)6M+δ1- β- δθ<w(s,z)。(17) 因此,假设2.1的条件(d)成立。事实上,(17)意味着我们对walso的选择满足了假设2.2(b)中的一致严格不等式。只需检查H的值的凸性。但这是由(16)中定义的ψ的凸性所暗示的,每当0<θ6 1时,该凸性保持不变,以及积分的线性。下面是定理2.3的结论。3.2.2. ρ<1<γ的情况。为了处理这种情况,我们再次应用连续变换^v≡ v1-γ到Bellman方程(12)。但现在1- γ为负,导致最小化问题^v(s,z)=miny∈Γ(s,z)(r(s,y,z)+βZ^v(y,Z′)P(Z,dz′)1/θ)θ(18)(s,z)∈ 十、 与(18)相对应的状态动作聚合器H仍与(14)中的定义相同。注意,在当前设置中,θ<0。由于(18)是一个极小化问题,我们的目标是应用定理2.5。对于括号函数wand w,我们取常数f functionsw:=M+δ1- βθ和w:=m1级- βθ、 其中δ为正常数,m和m如(15)所定义。假设2.1和2.3的条件均满足。关于假设2.1,条件(a)至(c)的参数与第3.2.1节中的参数相同。要检查条件(d),请注意,对于固定((s,z),y)∈G、 我们有h((s,z),y,w)=r(s,y,z)+βM+δ1- βθ>M+βM+δ1- βθ、 或者,对于一些r环,H((s,z),y,w)>M+δ1- β- δθ> w(s,z)。

19
nandehutu2022 在职认证  发表于 2022-6-11 06:31:21
(19) 同样,对于固定((s,z),y)∈G、 我们有h((s,z),y,w)=r(s,y,z)+βm1- βθm+βm1- βθ、 精确地说,当ε:=[(M+δ)/(1)时,条件(b)成立- β)]θ- [(M+δ)/(1- β) - δ]θ.最后一项等于w(s,z)。因此,假设2.1的条件(d)得到验证。此外,从(19)开始,我们对walso的选择立即满足了假设2.3(b)中的统一系统不等式。只需检查H的值凹度。但这直接来自(16)中定义的函数ψ的凹度,如θ<0所示,以及积分的线性。现在,我们已经检查了定理2.5.3.2.3中的所有条件。情况1<ρ<γ。我们现在转向相对风险规避系数仍然严格大于1但替代跨期弹性小于1的情况下的模型,这在文献中常见。与前面一样,我们应用连续变换^v≡ v1-γ符合Bellman方程(12),且自1起- γ<0,转换后的对应项将我们引向(18)中定义的最小化问题。请注意,当前设置中θ>1。由于(18)是一个极小化问题,我们的目标是应用定理2.5。对于括号函数wand w,我们取常数f functionsw:=m级- δ1 - βθ和w:=M1级- βθ、 对于某些正δ<m,其中m和m如(15)所定义。假设2.1和2.3再次得到满足。关于假设2.1,验证条件(a)至(c)的参数与第3.2.1节中的参数相同。要检查条件(d),请注意,对于固定((s,z),y)∈G、 我们有h((s,z),y,w)=r(s,y,z)+βm- δ1 - βθ>m+βm- δ1 - βθ、 或者,用一些r耳环和格子((s,z,y,w)>m级- δ1 - β+ δθ> w(s,z)。(20) 同样,对于固定((s,z),y)∈G、 我们有h((s,z),y,w)=r(s,y,z)+βM1- βθM+βM1- βθ=w(s,z)。因此,假设2.1的条件(d)成立。

20
kedemingshi 在职认证  发表于 2022-6-11 06:31:24
事实上(20)意味着我们对walso的选择满足了假设2.3(b)中的一致严格不等式。例如,参见Farhi和Werning(2008)或Basu和Bundick(2017)。H的值凹度是ψ的凹度的直接结果,当θ>1时,ψ的凹度与积分的线性度保持一致。下面是定理2.5的结论。3.3. 风险敏感偏好。考虑具有风险敏感偏好的代理人(例如,参见B¨auerle和Ja'skiewicz(2018)),得出Bellman方程v(s,z)=maxy∈Γ(s,z)r(s、y、z)-βθlnZexp-θv(y,z′)P(z,dz′)(21)对于每个(s,z)∈ S×Z.这里,r:G→Ris是一个连续的单周奖励函数。参数θ>0表示风险敏感性,而其他原语如第3.1节所述。特别地,P是Feller,Γ是连续的和紧值的,并且两个沙Z都是紧的。应用连续双射变换^v≡ 经验值(-Bellman方程(21)中的θv)到v导致最小化问题^v(s,z)=miny∈Γ(s,z)扩展-θr(s、y、z)-βθlnZ^v(y,Z′)P(Z,dz′). (22)我们将(22)转换为我们的环境,将X:=S×Z作为状态空间,a=y∈ S为动作,设置h((S,z),y,v)=exp-θr(s、y、z)-βθlnZv(y,z′)P(z,dz′). (23)由于r是连续的,因此存在一个有限常数M,其中| r | 6 M。对于括号函数,我们确定δ>0,并取常数函数sw:=exp-θM1级- β+ δ和w:=exp-θ-M1级- β.假设2.1和2.3均满足。关于假设2.1,验证条件(a)和(b)的步骤与第3.2.1节中的步骤相同。条件(c)显然适用于任何b∈R、 标量映射φ(t):=exp-θb-βθln t(t>0)(24)是单调递增的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 06:07