楼主: 可人4
3298 142

[经济学] 策略转换和学习最优策略 [推广有奖]

51
可人4 在职认证  发表于 2022-4-26 15:00:14
还请注意,如果PU | Y,Z(θ)为空,即当G-(Y,Z,θ)允许进行不可测量的选择,或者当力矩条件均不取决于结构参数时。假设3.1的第(ii)部分似乎是全新的。直观地说,(3.8)是一种局部条件,当我们将θ稍微移到识别集之外时,要求φ积分的最小值不要减小得太快。在相反的方向上,(3.9)要求当我们将θ稍微移到识别集之外时,积分的最大值不会增加太快。例如,如果积分的值可以在已识别集的边界上不连续变化,则会违反这些条件。我们将该条件称为局部反事实稳健性条件,因为它要求结构参数值的微小变化不会导致感兴趣的反事实数量值的不连续变化。有趣的是,假设3.1中的两个条件都与优化文献中误差界理论中的典型假设有关。最后,请注意,第(i)部分和第(ii)部分中的δ值是相同的。然而,这不是限制性的,因为第(i)部分和第(ii)部分可以针对两个不同的值δ(i),δ(ii)>0建立,然后δ可以被视为δ=min{δ(i),δ(ii)}。在实践中,假设3.1的第(ii)部分可能很难验证。因此,我们引入以下假设作为假设3.1第(ii)部分的替代:假设3.2(误差范围(2)(ii))。对于某些δ>0,存在值``≥ 0(可能取决于δ),因此:-(y,z,θ))≤ `· d(θ,Θ)-(y,z,u)∩ Θ*δ) ,(y,z)-a、 美国为所有美国∈ U和θ∈ Θ*δ、 (3.10)d(y?,G?(y,z,u,θ,γ))≤ `· d(θ,Θ)(v,γ)∩ Θ*δ) ,(y,z,u)- a、 就为了所有人吗?∈ Yθ∈ Θ*δ.

52
能者818 在职认证  发表于 2022-4-26 15:00:21
(3.11)在哪里-(y,z,u)和Θ?(v,γ)定义为:Θ-(y,z,u):=θ:u∈ G-(y,z,θ), Θ?(v,γ):={θ:y?∈ G(y,z,u,θ,γ)}。此外,函数φ:V→ R在(u,y?)中是有界的、可测的和Lipschitz连续的用Lipschitz常数L~n。下面的引理表明假设3.2对于假设3.1的第(ii)部分是有效的。在这个过程中,引理在假设3.1和随机集G的某些Lipschitz行为之间建立了有趣的联系-G呢?关于结构参数θ∈ Θ.参见庞(1997)的介绍。引理3.1。假设假设满足假设2.1、2.2和2.3。最后,假设-(·,θ)和g?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 那么假设3.2就意味着假设3.1(ii),其中C=L~nmax{`,`}。证据见附录B。可以证明,条件(3.10)和(3.11)相当于集值映射的Lipschitz连续性条件的几乎确定版本,其中两个集之间的距离由Compeiu–Hausdorff距离度量。这些条件的本地化版本称为度量正则性条件,它也与优化理论中的约束条件密切相关。有关讨论,请参见Dontchev andRockafellar(2009)第3.3章和Io offe(2016)。3.2政策转换的包络函数我们最终可以转向本节的主要目标,这是界定政策转换I[~n](γ)的问题。理论上,可以通过求解两个(非常)复杂的约束优化问题来获得I[~n](γ)的界,这两个问题搜索所有分布PU | Y,Zand PY?γ| Y,Z,Uthat满足我们最大化和最小化政策转换的建模假设。然而,很明显,这种优化问题在大多数实际情况下是不可行的。

53
何人来此 在职认证  发表于 2022-4-26 15:00:27
下面的结果显示了策略转换边界的可伸缩公式,这对下一节很重要。定理3.1(策略转换的边界)。假设假设2.1、2.2、2.3和3.1都成立。此外,假设:V→ [~n\'b,~nub] R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 然后我*[~n](γ)=[I`b[~n](γ),Iub[~n](γ)],其中:I`b[~n](γ)=infθ∈Θmaxλj∈{0,1}Zinfu∈G-(y,z,θ)infy?∈G(y,z,u,θ,γ)ν(v)+u*JXj=1λjmj(y,z,u,θ)!dPY,Z,(3.12)Iub[~n](γ)=supθ∈Θminλj∈{0,1}Zsupu∈G-(y,z,θ)supy?∈G(y,z,u,θ,γ)ν(v)-u*JXj=1λjmj(y,z,u,θ)!dPY,Z,(3.13)式中*∈ R+是任何满足以下条件的值:u*≥ 最大值CC,(k ub)- ~n\'b)Cδ, (3.14)式中,C,Candδ来自假设3.1。证据见附录B。定理3.1指出,识别集的闭凸包I?定义3.3中关于策略变换I的定义[ν](γ)可计算为两个优化问题的解。有趣的是,这些优化问题与受均衡约束的数学规划问题(MPEC)的文献中发现的问题密切相关,这些问题以前在经济学中被应用于社会规划问题和斯塔克伯格博弈。理论3中的上下包络函数。1可能最恰当地描述为惩罚优化问题,带有u*(3.14)惩罚参数的作用。结果的陈述和证明都依赖于变分分析中关于误差界的文献中的精确罚函数理论。该定理使用errorbounds假设3.1,以表明惩罚u*可以被认为是有限的。这对于在前面章节中进行的政策决策问题的理论分析非常重要。

54
能者818 在职认证  发表于 2022-4-26 15:00:33
此外,隐式定理3.1表明λj的值仅取决于参数θ,这一点将在下一节中使用。从识别的角度来看,包络函数通常不会给出策略变换的明确界限。但是,在任何其他条件下,确保识别集*(γ) 对于每个γ都是封闭和凸的∈ Γ,定理3.1为策略转换的识别集提供了(γ中的点)清晰的特征。最后,当利益对象是条件策略转换时,结果很容易修改。定理3.1最有趣的特征之一是,当反事实的利益对象是一种特定形式时,不需要计算识别集Θ*结构参数,以确定感兴趣的反事实对象。此外,问题中的不可观测项会被显示出来,当识别集*(γ) 这是封闭和凸的,没有任何信息损失。这一点也可以转化为下一节研究的政策决策问题。结构参数和不可观测数据直观地起到了连接事实域和反事实域的中介作用。然而,在计算了定理3.1中的包络函数后,它们在政策选择问题中不再发挥作用。虽然我们不会在正文中详细讨论可测性问题,但我们注意到附录B中的引理B.1。2.1证明了优化问题中的被积函数是普遍可测的;也就是说,对于任何概率测度PY,Z的完成,都是可测量的。这个结果的证明主要依赖于G-G呢?是可测量的。

55
能者818 在职认证  发表于 2022-4-26 15:00:39
此外,附录B.2.1中的命题B.1表明:→ I`b[~n](γ),Iub[~n](γ)是相对于普遍σ可测量的-Γ上的代数(由Borelσ生成)-代数)。在接下来的政策选择章节中,这些结果将非常重要。现在,我们回到前面给出的例子来讨论我们的识别结果。我们将在示例中首先验证假设3.1,并展示引理3.1的帮助。例1(同时离散选择(续))。再次考虑关于同步离散化的示例1,回想一下,我们使用(2.6)和(2.7)中的动量条件施加了中值零和中值独立性限制。这个例子对假设3.1的验证提出了挑战,因为教科书处理的不连续性,见Luo等人(1996)。参见Dolgopolik(2016)的综述。函数φ(v)={πk(γ(z,y-k) );θ) ≥ u} 。事实上,在我们目前的假设下,假设3.1并不令人满意。要理解直觉,请关注假设3.1(ii)。这一假设的问题只有在某些情况下才会出现∈ {1,…,K}和一些z∈ Z和y-K∈ YK-我们有(i)反事实截断值πk(γ(z,y-k) );θ*) = 在某个θ处为0*∈ Θ*, 如果(ii)P(Yk=1 | Zk=z,Y-k=y-k) 6=0.5,其中(z,y-k) =γ(z,y)-k) 。在这种刀口情况下,θ的变化很小*∈ Θ*到某个θ/∈ Θ*能引起P(Y?γ,k=1)的不连续变化。附录C.1.2中给出了该故障的完整描述,包括各种情况的说明。然而,通过稍微加强力矩条件,我们可以满足本例中的假设3.1。关键是对Ukaroundzero分布的平滑度引入额外的假设。

56
kedemingshi 在职认证  发表于 2022-4-26 15:00:46
特别是,我们将用以下条件替换(2.6)和(2.7)中的力矩条件:{英国≤ πk(z,y)-Kθ)}-max{Lπk(z,y)-Kθ), 0} -0.5{Zk=z,Y-k=y-k}≤ 0,(3.15)E0.5-{英国≤ πk(z,y)-Kθ)}-麦克斯{-Lπk(z,y)-Kθ), 0}{Zk=z,Y-k=y-k}≤ 0,(3.16)对于k=1,K、 尽管如此∈ Z和所有y-k、 y-K∈ YK-1.除了中位数零/中位数相关假设外,这些新的力矩条件还限制了U上任意接近零的概率质量,这是满足假设3.1的关键。还要注意的是,尽管这些力矩条件会隐含地对可获得的反事实选择概率施加约束,但很容易验证它们不会对结构参数θ集施加任何额外约束∈ Θ这可以使观察到的分布合理化(在定义3.2的意义上),因此不会违反备注2.1中引入的无回溯原则。有了这些新的力矩条件,可以证明假设3.1是满足的。回想一下,当第一次介绍示例1时,我们假设πkis是(Zk,Y)的已知可测量函数-k) 这是线性参数θ,每个(z,y)都有一个远离零的梯度(相对于θ)-k) 。我们得出πkis-Lipschitz在θ中,并且满足“反向Lipschitz”条件;也就是说,对于每个(z,y-k) 我们有:Lk | |θ- θ*|| ≤ |πk(z,y)-Kθ) -πk(z,y)-Kθ*)| ≤ Lk | |θ- θ*||,对于某些Lk,Lk>0。现在定义:τ:=minkmin(z,y-k) | 0.5-P(Yk=1 | Z=Z,Y-k=y-k) | s.t.| 0.5-P(Yk=1 | Z=Z,Y-k=y-k) |>0。(3.17)然后,附录C.1.2中的分析表明,假设3.1对C=LL、C=LL和δ=τ/(LL)进行了验证,其中L=minkland L=minkLk。

57
可人4 在职认证  发表于 2022-4-26 15:00:52
在定理3.1中,我们可以接受惩罚*要获得任何令人满意的价值:u*≥ 最大值LL,τ.定理3.1表示,作为γ的函数,I[~n](γ)=P(Y?γ=1)上的上下包络分别由(3.12)和(3.13)给出。备注3.1(反事实一致性)。回想一下,定理3.1仅适用于随机集G-(·,θ)和G?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 在同时离散选择的例子中,反事实映射G?(·,θ,γ)几乎可以肯定是非空的,这与这些模型中众所周知的相干性问题有关。特别是,对于不可观测向量(u,…,uK)的给定实例,可能不存在任何反事实内生结果变量向量(y?1,γ,…,y?K,γ),该向量可解(2.8)表示的方程组。然而,我们注意到,这个问题与我们的特定方法无关,可以通过(i)对U的子集进行条件化分析,以确保(2.8)中方程组的解,或者(ii)对参数空间施加某些约束,以确保(2.8)中方程组的解的存在来解决。我们请读者参阅Chesherand Rosen(2020年)对这一问题的详细讨论。然而,这个“反事实一致性”问题能否在不违反备注2.1中的无回溯原则的情况下得到解决,似乎是一个公开的问题。例2(项目评估(续))。再次考虑关于项目评估的示例2。假设3.1的验证见附录C.2.2,并使用引理3.1验证假设3.1(ii)。值得注意的是,我们发现假设3.1对于δ>0且C=C=1的任何值都是满足的。因此我们可以接受惩罚*= 1.

58
kedemingshi 在职认证  发表于 2022-4-26 15:00:58
然后,定理3.1表示,作为γ的函数,I[~n](γ)=E[Y?γ上的上下包络分别由(3.12)和(3.13)给出。4关于最优策略的可学习性在本节中,我们提供了PAMPAC可学习性的充分条件。首先,以下命题阐明了上一节中的下包络函数与可学习性概念之间的联系。提议4.1。假设假设假设2.1、2.2、2.3和3.1成立。此外,假设:V→ [~n\'b,~nub]R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)区域对于每个θ几乎肯定是非空的∈ Θ*. 那么一个策略空间Γ是关于政策变换的PAMPAC可学习的当且仅当:infPY,Z∈PY,ZP纽约,Zsupγ∈ΓI`b[Γ](γ)- I`b[~n](d(ψ))≤ C≥ κ、 (4.1)其中I`b[Γ]:Γ→ R是定理3.1中的下包络函数。备注4.1。根据附录B.2.1中的命题B.1,映射ψ7→ I`b[ψ](d(ψ))是普遍可测的;也就是说,对于任何PY,Z的完成,都是可测量的∈ PY,Z。因此,如果必要的话,可以使用外部度量为(4.1)中的事件分配唯一的概率。特别是,下包络函数完全表征了策略空间Γ相对于Γ的PAMPAC可学习性。因此,毫不奇怪,我们对于政策空间是PAMPAC可学习的充分条件将与定理3.1中的下包络函数的行为有关。接下来,我们引入一个熵增长条件,该条件将作为对矩函数和函数φ所允许的复杂性的约束。为了引入熵增长条件,我们必须首先定义一类函数的覆盖数和度量熵。定义4.1(覆盖数、度量熵)。设(T,ρ)为半度量空间。

59
何人来此 在职认证  发表于 2022-4-26 15:01:05
T的覆盖是其并集包含T作为子集的任何集合。对于任何ε>0的情况,用n(ε,T,ρ)表示的T的覆盖数是ρ的最小数-球需要形成ε-掩蔽度量熵是覆盖数的对数。定义4.2(熵增长条件)。设F是可测空间(X,AX)上具有包络F的一类可测实值函数。F类满足熵增长条件,如果:∈Qnlog N(ε,F,| |·| | Q,2)=o(N),(4.2)对于每一个ε>0的原子,其概率为1/N的整数倍的所有离散概率测度Qnon X取上确界。该条件改编自Dudley等人(1991)(定理6,第500页)中的一个条件,该条件与其他温和条件相结合,证明了一类函数是一致的GlivenkoCantelli。熵增长条件本质上是说,对于某些空间x中的任意集合Xnof n点(x,…,xn),覆盖该集合所需的半径ε>0的最小球数的对数:F | xn:={(F(x),…,F(xn)):F∈ F} Rn,是o(n)阶。这种情况的充分条件可以与文献中以前使用的条件联系起来。例如,(4.2)如果功能类别为VC类型(c.f.Chernozhukovet al.(2013)、Belloni et al.(2019)),如果类别满足Pollard的可管理性标准(c.f.Pollard(1990)、Andrews and Shi(2013)、Andrews and Shi(2017)),或者如果功能类别已知为auniform Donsker类别,则满足。下面的定理表明,如果策略分析问题中的某些函数类服从熵增长条件,那么每个策略空间都是PAMPAC可学习的。为了说明结果,我们必须首先产生一类重要的函数。

60
kedemingshi 在职认证  发表于 2022-4-26 15:01:11
设∧={0,1}J,对于固定三元组(θ,γ,λ)∈ Θ×Γ×∧,leth`b(·,·,θ,γ,λ):Y×Z→ R由以下公式给出:h`b(y,z,θ,γ,λ):=infu∈G-(y,z,θ)infy?∈G(y,z,u,θ,γ)ν(v)+u*JXj=1λjmj(y,z,u,θ)!。(4.3)另见范德法特和韦尔纳(1996)第167页的定理2.8.1。注意,h`b(·,·,θ,γ,λ)正是定理3.1中下包络函数中的被积函数。现在定义函数类:H`b:={H`b(·,·,θ,γ,λ):Y×Z→ R:(θ,γ,λ)∈ Θ × Γ × Λ}. (4.4)然后我们得到以下结果:定理4.1。假设假设假设2.1、2.2、2.3和3.1成立。此外,假设:V→ [~n\'b,~nub]R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)区域对于每个θ几乎肯定是非空的∈ Θ*. 修正任何ε>0的值。(i) 如果函数类H`b满足熵增长条件,那么每个策略空间都是可以通过政策转换的。此外,对于任何c>0,我们有:supPY,Z∈PY,ZP纽约,Zsupγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)≥ C= O(r(n)),(4.5)式中:r(n):=maxN-1/2,n-1/2supQ∈qnqlogn(ε,H`b,| |·| | Q,2). (4.6)(ii)如果函数类别:Φ:={~n(·u,y?):Y×Z→ R:(u,y?)∈ U×Y?},(4.7)Mj:={Mj(·u,θ):Y×Z→ R:(u,θ)∈ U×Θ},j=1,J、 (4.8)是一致有界的,并且满足熵增长条件,那么H`b也是。此外,对于anyc>0,我们有:supPY,Z∈PY,ZP纽约,Zsupγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)≥ C= O(r(n)),(4.9)式中:r(n):=maxN-1/2,n-1/2supQ∈Qnvuutlog N(ε/4,Φ,| |·| | Q,2)+JXj=1log N(ε/2,Mj,| |·| Q,2). (4.10)证据。见附录B。第(i)部分的证明通过提出一个特定的决策程序进行,然后表明当函数类满足熵增长条件时,所提出的决策程序满足定义2.4中的PAMPAC可学习性要求。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 21:23