楼主: 可人4
3313 142

[经济学] 策略转换和学习最优策略 [推广有奖]

31
nandehutu2022 在职认证  发表于 2022-4-26 14:58:04
然而,由于G-上述定义的(·,θ)几乎肯定等于(2.12)的右侧,而无需闭合,这是因为假设U是连续分布的。对该多功能的仔细检查提供了一些简化:-(Y,D,Z,θ)={Y}×[Y,Y]×[g(Z),1],如果D=0,[Y,Y]×{Y}×[0,g(Z)],如果D=1。(2.13)为了完成对事实领域的描述,我们将在⊥⊥ Z | X和d的平均独立条件E[Ud | Z]=E[Ud | X]∈ {0,1},作为力矩条件的序列。特别是,由于Z被假定为有限的,让我们将Z划分为乘积Z=Z×X,其中Z:={Z,…,z0K}和X:={X,…,xL}。现在考虑下面的矩不等式序列:E[(D- g(z,x)){z=z,x=x}]≤ 0, Z∈ Z、 x∈ 十、 (2.14)E[(g(z,X)- D) {Z=Z,X=X}]≤ 0, Z∈ Z、 x∈ 十、 (2.15)和:E[({U≤ g(z,x)}- g(z,x)){x=x}]≤ 0, Z∈ Z、 x∈ 十、 (2.16)E[(g(z,X)-{U≤ g(z,x)}{x=x}]≤ 0, Z∈ Z、 x∈ X.(2.17)加上(2.14)和(2.15)意味着P(D=1 | Z=Z)=g(Z)代表所有Z∈ Z、 和(2.16)和(2.17)implyP(U≤ g(z)| z=z)=P(U≤ g(z)|X=X)=g(z)表示所有z∈ 赞德x∈ X.在支撑Z的不确定性下,这些力矩不等式代表了独立条件U的唯一可观察的含义⊥⊥ Z | X。此外,我们将施加以下力矩条件:E[t(Z,X)-{Z=Z,X=X}]≤ 0, Z∈ Z十、∈ 十、 (2.18)E[{Z=Z,X=X}-t(z,x)]≤ 0, Z∈ Z十、∈ 十、 (2.19)和:E“Ud{Z=Z,X=X}Xz∈Zt(z,x)-{X=X}t(z,X)#≤ 0, Z∈ Z、 x∈ 十、 d∈ {0,1},(2.20)E“Ud{X=X}t(z,X)-{Z=Z,X=X}Xz∈Zt(z,x)#≤ 0, Z∈ Z、 x∈ 十、 d∈ {0, 1}. (2.21)加在一起(2.18)-(2.21)意味着平均独立条件:E[Ud | Z]=E[Ud | X]代表d∈ {0, 1}.

32
何人来此 在职认证  发表于 2022-4-26 14:58:10
特别是,(2.18)和(2.19)确保t(z,x)=P(z=z,x=x),所以(2.20)和(2.21)中的力矩条件意味着:E[Ud({z=z,x=x}P(x=x)-{X=X}P(Z=Z,X=X))]=0,Z∈ Z、 x∈ 十、 d∈ {0,1},或等价地:EUd{Z=Z,X=X}P(Z=Z,X=X)-{X=X}P(X=X)= 0, Z∈ Z、 x∈ 十、 d∈ {0, 1}.在此基础上,附录C.2.1对事实领域的假设2.2进行了全面验证,包括多功能(2.13)的可测量性。通过这种设置,我们可能会感兴趣的是,当决定个体治疗决定的因素Z被修改时,结果变量是如何变化的。例如,让Γ表示所有可测量函数γ:Z的集合→ Z(请注意,最多有几个)。然后我们可以定义:Y?γ=U(1)-Dγ) +UD?γ、 (2.22)随机变量D在哪里?γ由D给出?γ={g(γ(Z))≥ U} 。注意,正如Heckman和Vytlacil(1999)以及Heckman和Vytlacil(2005)所述,我们的反事实γ∈ Γ对(U,U)没有直接影响。我们感兴趣的是随机变量Y的性质?γ、 比如它的平均值或者它的条件平均值。反事实域的多功能性由:G?(Z,U,U,U,θ,γ):=(Y?γ,D?γ)∈ Y×{0,1}:Y?γ=U(1)-Dγ) +UD?γ、 D?γ={g(γ(Z))≥ U}。. (2.23)注意这里我们用Y=Y.再一次,仔细检查这个多功能系统提供了一些简化:G?(Z,U,U,U,θ,γ)=(U,1),如果U≤ g(γ(Z)),(U,0),如果g(γ(Z))<U(2.24),则完全验证反事实域的假设2.3,包括多函数(2.24)的可测性,附录C.2.1.2.3政策转换和决策问题在本文中,我们将以前一节中建立的环境为基础,提出一个基于任何反事实利益对象的价值做出政策决策的框架,该价值可以写成向量Vγ的某个函数的积分。

33
kedemingshi 在职认证  发表于 2022-4-26 14:58:16
特别是,如果是:Ohm × Γ → R是一个可测量的函数,那么我们将把注意力限制在政策制定者感兴趣的环境中,无论是政策转变还是有条件的政策转变。定义2.1(政策转换和条件政策转换)。让我们来看一看:Ohm ×Γ → R是有界的可测函数。Γ的策略转换是一个函数I[Γ](γ):Γ→ R由:I[~n](γ):=Z~n(ω,γ)dP给出。(2.25)此外,如果 A是σ-代数,然后,给定Ais函数I[~n]的条件策略转换:Ohm×Γ → R以使(i)~i[ν]:Ohm×Γ → R是一个Γ-可测量的,以及(ii)对于每个A,I[~I[~n](·,γ)A](γ)=I[~nA](γ)∈ 答:在本文的其余部分中,我们将重点讨论无条件策略转换,因为类似的结果适用于条件策略转换。此外,由于相关随机变量inSee Carneiro等人(2011年)讨论了该设置下的其他可能参数。我们的环境在向量Vγ中给出,我们将在整篇文章中滥用符号,而将重点放在形式为:I[~n](γ):=Z的策略变换上Ohm~n(Vγ(ω))dP=ZV~n(V)dPVγ,(2.26),这显然是定义2.1中一般政策转变的特例。在本文的剩余部分中,我们认为决策者希望选择γ来最大化某些已知函数的策略转换值→ R、 尽管所有结果都同样适用于决策者希望最小化政策转换的情况。出于教学目的,首先考虑一个理想化的决策问题很有用。

34
可人4 在职认证  发表于 2022-4-26 14:58:23
特别是,当(i)真实分布PY,Zis已知,(ii)条件分布PU | Y,Zis已知,以及(iii)反事实条件分布PY?γ| Y,Z,ui已知,决策者的问题变得微不足道:她可以简单地计算φ的策略变换并选择γ的最大值。然而,显然,这种理想化的环境将是罕见的。相反,当决策者只能使用ani时,我们将考虑更现实的情况。i、 d.从真实分布PY,Z中选取大小为n的样本,只知道假设2.1,2.2和2.3得到满足。在这种环境下,决策者可能无法计算政策转换,因为(i)缺乏PY,Z的完美知识,(ii)缺乏PU | Y,Zan的知识,(iii)缺乏PY的知识?γ| Y,Z,U。当结构参数被点识别或部分识别时,这三种情况都可能发生。我们现在准备好定义考虑中的决策问题。定义2.2(决策问题)。决策者的决策问题的特点是:(i)人口,由概率空间表示(Ohm, A、 P)。(ii)行动(或政策)空间,由(Γ,B(Γ))给出。(iii)样本空间,由(ψn,∑ψn,P)给出nY,Z),其中ψn:=(Y×Z)n,典型元素ψ={(yi,zi)}ni=1,带有乘积Borelσ-代数∑ψn:=(B(Y) B(Z))和产品测量PnY,Z.(iv)状态空间,由S×PY,Z给出,其中PY,zi是Y×Z上所有Borel概率测度的集合,S是所有三元组S=(θ,PU | Y,Z,PY?γ| Y,Z,U)的集合,使得(S,PY,Z)满足:(a)θ∈ Θ,(b)PU|Y,Z(U)∈ G-(Y,Z,θ)|Y=Y,Z=Z)=1,(Y,Z)-a.s.,(c)PY?γ| Y,Z,U(Y?γ∈ G(Y,Z,U,θ,γ)|Y=Y,Z=Z,U=U)=1,(Y,Z,U)-a.s.,和(d)元素θ∈ Θ和PU | Y,Zsatisfy:maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,U,θ)]≤ 0

35
大多数88 在职认证  发表于 2022-4-26 14:58:29
(2.27)在我们描述了决策问题之后,很明显,决策者最大化或最小化政策转换的愿望可以使用公理化方法从对V的Borel概率测度空间的偏好关系中推导出来。我们发现这个想法很有趣,但在这里不进行讨论。(v) 由所有可测函数的集合D:ψn给出了具有典型元素D的可行统计决策规则D→ Γ.(vi)目标函数,由函数I[Γ]:Γ×S×PY,Z给出→ R、 被称为依赖于状态的策略变换,其表达式为:I[~n](γ,s):=Z~n(v)d(PY?γ| Y,Z,U×PU | Y,Z×PY,Z)(2.28),其中→ R是一个可测量的函数(其中PY,Zis在写入I[~n](γ,s)时是隐式的)。关于统计决策问题的这种定义,有几点意见是正确的。在第(i)部分和第(ii)部分中,人口和行动空间的定义在某种程度上是标准的,并在前面的章节中得到了激励。在第(iii)部分中,样本空间被简单地视为n-可观测空间的乘积(Y×Z)。这个空间的度量是n-真分布PY,Z的乘积,由此我们可以立即推断出ψ中的样本∈ ψnis被假定为i.i.d。在上一节中,第(iv)部分指出,未观测状态的特征是分布PY,Zan和三元组(θ,PU | Y,Z,PY?γ| Y,Z,U),其中S对应于满足上一节中介绍的模型支撑限制和力矩条件的所有此类三元组。在第五部分中,可行决策规则D的特征是从样本空间ψ到动作空间Γ的所有可测函数的集合。我们将在下面回到这一点。此外,在本文中,我们将交替使用术语policyrules和decision rules。

36
mingdashike22 在职认证  发表于 2022-4-26 14:58:35
最后,定义2.2的第(vi)部分介绍了依赖于状态的策略转换,这是对策略转换的概括,允许其值依赖于第(iv)部分中的未知状态。在真实状态下进行评估时,依赖于状态的策略转换从定义2.1减少为策略转换。事前(即观察样本前)每个决策规则d:ψn→ Γ是一个随机变量。在某些可测性条件下,这意味着依赖于状态的策略变换I[~n](d(ψ),s)也是一个随机变量。剩下的问题是如何使用集合{I[~n](d(ψ),s):(s,PY,Z)∈ S×PY,Z}评估给定的策略规则。不言而喻的是,政策规则∈ D应优先于政策规则D∈ D如果每个PY,Z∈ PY,Zwe有I[~n](d(ψ),s)≤ 对于每一个s,I[~n](d(ψ),s)a.s∈ s在这种情况下,d以概率1在每个状态下传递更大的策略转换值,而不管PY,Z的分布如何。任何满足此条件的对d的偏好关系都将被称为尊重弱优势。然而,除了偏好关系尊重弱优势的要求之外,考虑到定义2.2中的决策问题,决策者应该如何(在规定意义上)在相互竞争的政策选项中进行选择是众所周知的。注:我们可以通过将D作为从ψ到Γ上所有分布的所有可测量函数的集合,来考虑随机决策规则。这不是我们想要的,但在稍微修改的假设下很容易适应。我们参考Manski(2011)的类似定义。还要注意的是,我们的定义意味着,对于每一个(s,PY,Z),I[~n](d(ψ),s)对I[~n](d(ψ),s)的随机优势∈ S×PY,Z。

37
kedemingshi 在职认证  发表于 2022-4-26 14:58:41
根据Strassen定理,如果我们为每个(s,PY,Z)对考虑备选概率空间,我们的定义将等同于随机优势。这一点在查尔斯·曼斯基(Charles Manski)的著作中反复提出,并在曼斯基(2011)中进行了总结。虽然为了发现本文中有趣的结果,不需要特定的偏好关系,但定义决策者决策问题中的最优性概念将是有用的。特别是,我们的结果可能对支持以下偏好关系的决策者特别有用:定义2.3(PAC最大偏好关系)。确定任意κ的样本大小n∈ (0,1)和anyd∈ D、 设cn(·,κ):D→ R++是满足要求的最小值:infPY,Z∈PY,ZP纽约,Zinfs∈SI[~n](d(ψ),s)+cn(d,κ)≥ supγ∈Γinfs∈SI[~n](γ,s)≥ κ. (2.29)然后决定规则d:ψn→ Γ弱地优先于(或弱地支配)决策规则d:ψn→ Γ在κ水平和样本量n,用dκd表示,当且仅当cn(d,κ)≤ cn(d,κ)。判定规则d:ψn→ Γ严格优于(或严格支配)决策规则d:ψn→ Γ,用d表示κd,当且仅当ifcn(d,κ)<cn(d,κ)。决策规则d∈ 如果没有判定规则D,则D将被称为关于4κ的可容许性∈ 这种偏好关系被称为PAC maximin偏好关系,因为它与下一小节中的学习框架密切相关,这反过来又与计算学习理论中Valiant(1984)的PAC学习模型密切相关。我们请读者参考附录A.2,在附录A.2中,我们从计算学习理论讨论了PAC可学习性的概念。

38
mingdashike22 在职认证  发表于 2022-4-26 14:58:48
我们还将在下一小节进一步强调这种联系。对于固定κ∈ (0,1),定义2.3中的偏好关系是一个总排序,这意味着任何两个决策规则d和d都可以根据4κ进行比较。此外,它还有一个分位数的解释。特别是,为了简单起见,假设PY,z包含一个分布π,并将Qπ(κ,d)定义为映射的κ分位数(分布π下):d7→ supγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)。(2.30)注意(2.30)中的映射总是正的。然后决定规则d∈ D将优先于被裁定的决定∈ 4κ下的D当且仅当Qπ(κ,D)≤ Qπ(κ,d)。分位数效用最大化已被inManski(1988)和Manski and Tetenov(2014)考虑,并在Rostek(2010)中被公理化。然而,我们的方法与这些方法有很大的不同,尤其是在对待(次)状态方面∈ 在定义2.3中为偏好关系提供公理化超出了本文的范围。事实上,决策者没有理由为了发现本文中的结果有用或有趣而需要定义2.3中的确切偏好关系。然而,以下结果表明,如上所述,在aminimum,4κ具有弱优势。提议2.1。假设假设假设2.1、2.2和2.3成立,且→ [~n\'b,~nub] R是丰富的可测函数。同样,假设γ7→ infs∈SI[~n](γ,s)是(普遍)可测量的。Letd,d∈ D是两个决策规则,假设对于每个PY,Z∈ PY,Zwe有I[~n](d(ψ),s)≤ 对于每一个s,I[~n](d(ψ),s)a.s∈ 那么对于任何κ∈ (0,1)我们有dκd,其中4κ是定义2.3中的偏好关系;也就是说,偏好关系4κ尊重弱优势。证据见附录B。备注2.2。

39
何人来此 在职认证  发表于 2022-4-26 14:58:56
通用可测量性是比Borel可测量性更弱的要求,其定义见附录B.2.1。此外,在附录B.2.1中,我们展示了mapγ7→ infs∈SI[~n](γ,s)是普遍可测量的,尽管结果和证明依赖于下一节介绍的假设3.1。因为假设。1目前还没有被引入,我们对γ7施加(通用)可测性→ infs∈SI[~n](γ,s)是本命题中的一个单独假设。我们对定义2.3中的偏好关系的主要兴趣——尤其是与频繁决策理论中遇到的其他偏好关系相比——是它与PAC学习框架的密切联系,这使我们能够使用统计学习理论和经验过程理论的丰富结果来研究其理论性质。在正式介绍这种联系之前,我们将首先回顾我们的示例,以说明定义2.2中给出的各种定义。例1(同时离散选择(续))。对于同时离散选择的例子,我们的兴趣在于反事实随机变量Y的性质?k、 γ,例如它的平均值或它的条件平均值。为了便于说明,我们将重点讨论数量:I[~n](γ)=ZOhm{Y?k,γ(ω)=1}dP,(2.31),这是一个反事实选择概率。注:这个量是函数φ(ω,γ)={Y?k,γ(ω)=1}的策略变换。如果没有太多额外的复杂性,我们可能会对条件选择概率E[{Y?k,γ(ω)=1}|Z]感兴趣;可以很容易地验证,I[~n](ω,γ)=E[~n(ω,γ)| Z](ω),其中(ω,γ)={Y?k,γ(ω)=1}是一种条件策略变换。自始至终,我们假设决策者对选择政策感兴趣∈ Γ使数量最大化(2.31)。我们现在可以正式定义决策者的决策问题。

40
mingdashike22 在职认证  发表于 2022-4-26 14:59:03
人口由概率空间给出(Ohm, A、 P)作用空间由(Γ,B(Γ))给出,其中Γ是所有函数的集合γ=(γk)Kk=1,γk:Z×YK-1.→ Z×YK-1和B(Γ)可作为Γ的功率集。本例中的样本空间由ψn给出,这是n个向量{(yi,zi)}ni=1的所有可能实现。世界的每个状态都由一对(θ,PU | Y,Z)索引,该对满足(2.5)给出的支撑限制以及力矩条件(2.6)和(2.7)。根据定义,该量的状态依赖关系可相对于σ(Z)进行测量,并满足以下条件:I[~I[~n](·γ)A](γ)=ZE[~n(ω,γ)| Z](ω)A(ω)dP=Z{Y?k,γ(ω)=1}A(ω)dP=I[~nA](γ),(2.32)∈ σ(Z)。因为Z和Y是有限的,所以Γ和B(Γ)最多包含很多元素。策略转换由以下公式给出:I[~n](γ,s):=Z{Uk≤ πk(γ(Zk,Y)-k) );θ) 一个可行的统计决策规则是任意可测函数d:ψn→ Γ通过给定对n的访问权来选择一个由γ索引的策略-来自ψn示例2的样本(程序评估(续))。对于程序评估示例,回想一下我们对随机变量Y的属性感兴趣吗?γ、 比如它的平均值或者它的条件平均值。为了便于说明,我们将关注一些反事实政策下的平均结果∈ Γ,再见[Y?γ]。注意,取φ(ω,γ)=Y?γ(ω)(:=Y?(ω,γ)),那么很明显E[Y?γ]=I[~n](γ),因此反事实策略的平均效果是随机变量Y的策略变换?γ(ω). 如果没有额外的并发症,我们可能会对条件平均效应e[Y?γ| X]感兴趣。可以很容易地证明,I[~n](ω,γ)=E[~n(ω,γ)|X](ω),其中ω(ω,γ)=Y?γ(ω)是一个条件策略变换。我们将自始至终假设决策者有兴趣使E[Y?γ]的价值最大化。我们现在可以正式确定决策者的决策问题。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 03:07