楼主: 可人4
3307 142

[经济学] 策略转换和学习最优策略 [推广有奖]

41
mingdashike22 在职认证  发表于 2022-4-26 14:59:09
人口由概率空间给出(Ohm, A、 P)作用空间由(Γ,B(Γ))给出,其中Γ是所有函数γ:Z的集合→ Z和B(Γ)是Γ的幂集。样本空间由ψn=(Y×{0,1}×Z)nw和一个典型元素ψ=((yi,di,zi))ni=1给出。状态空间S由S=(θ,PU,U,U | Y,Z,PY?γ| U,U,U,Y,Z)给出,其中PU,U,U | Y,Zand-PY?γ| U,U,U,Y,Zare满足支承约束(2.12)和力矩条件(2.14)-(2.19)的任何随机变量。最后,一个可行的统计决策规则是任何可测函数d:ψn→ Γ通过给定对n的访问权来选择一个由γ索引的策略-样本来自ψn.2.4理论结果的路线图:事前和事后分析根据上一小节中定义的决策者决策问题,我们即将得出的理论结果可以根据其是否适用于事前(即观察样本之前)或事后(即观察样本之后)进行划分。回忆一下定义2.3中的偏好关系。在这种偏好关系下,决策规则d的“性能”或“质量”可以使用值cn(d,κ)来衡量。因此,cn(d,κ)的价值将是本文剩余部分中事前和事后理论分析的主要焦点。我们在事前理论结果中的主要关注点是为政策空间的可学习性建立充分的条件,我们将在本小节中进一步讨论。

42
nandehutu2022 在职认证  发表于 2022-4-26 14:59:17
我们事后理论分析的主要重点是确定某些决策规则的cn(d,κ)值的界,以及决策规则集d的界∈ D获得一小部分cn(D,κ)。事实上,通过定义,该量是可测量的,与σ(X)有关,并且满足:I[~I[~n](·γ)A](γ)=ZE[~n(ω,γ)|X](ω)A(ω)dP=ZY?γ(ω)A(ω)dP=I[~nA](γ),(2.33)对于每个A∈ σ(X)。因为Z是有限的,所以Γ和B(Γ)最多包含很多元素。2.4.1政策空间可学习性为了理解事前的理论分析,我们必须正式引入政策空间可学习性的概念,之所以命名是因为它与计算学习理论中的可学习性概念有关。直觉上,一个策略空间Γ是可以学习的,如果,对于某些决策规则d∈ D、 定义2中的cn(D,κ)值。随着n的增加,3可以任意变小。这一概念将在本小节中予以明确。附录A.2回顾了计算学习理论中的可学习性概念。我们认为,根据定义2.3中的偏好关系,在统计学习环境中,政策选择问题和选择最佳分类问题之间的概念差异小于最初可能出现的差异。在这两种情况下,我们都希望选择一个基于有限样本的决策规则,该样本将根据类似标准在尚未看到的样本中表现良好。环境之间的本质区别在于,即使是手头的样本,也无法观察到反事实政策的表现。当然,如果决策者有一个计量经济学模型,可以用来确定政策实验的反事实结果,这就不是问题。前面小节中的通用模型正是为了实现这一目的。

43
mingdashike22 在职认证  发表于 2022-4-26 14:59:23
鉴于定义2.3中的偏好关系,决策者面临的决策问题与学习问题非常相似,这一点在以下定义与附录a.2中的PAC可学习性定义进行比较时显而易见。定义2.4(PAMPAC可学习性)。在假设2.1、2.2和2.3下,政策空间Γ是政策不可知的maximin PAC learnable(PAMPAC),与政策转换Γ:V有关→ 如果存在函数ζΓ:R++×(0,1)→ N使得,对于任何(c,κ)∈ R++×(0,1)和任意分布PY,ZoverY×Z,如果n≥ ζΓ(c,κ)然后有一些决策过程d:ψn→ Γ满意:英菲,Z∈PY,ZP纽约,Zinfs∈SI[~n](d(ψ),s)+c≥ supγ∈Γinfs∈SI[~n](γ,s)≥ κ. (2.34)也就是说,如果存在一些决策规则d:ψn,则策略空间是PAMPAC可学习的→ R在最坏的情况下(次)状态∈ S、 与值非常接近:supγ∈Γinfs∈SI[~n](γ,s),对于足够大(但有限)的样本,概率很高。根据定义2.3中的偏好关系,PAMPAC可学习性意味着,随着样本量的增加,(c,κ)中的每个点-空间必须最终(即对于足够大的n)位于函数cn(d,·)之上:(0,1)→ R++用于一些决策规则d。图3说明了这个想法。通过这种方式,我们可以看到,PAMPAC可学习性并不是用来确定可接受的决策规则或做出政策选择的必要条件。然而,对于政策不可知的极小极大PAC可学习性,可能存在实质上几乎相同的定义,但决策程序d:ψn除外→ Γ必须满足:infPY,Z∈PY,ZP纽约,Z小吃∈SI[~n](d(ψ),s)- C≤ γ干扰素∈Γsups∈SI[~n](γ,s)≥ κ. (2.35)图3:该图说明了定义2.4中PAMPAC可学习性的概念。

44
能者818 在职认证  发表于 2022-4-26 14:59:30
给定一对(c,κ),PAMPAClearnability保证存在一些有限n和一些决策规则d:ψn→ 使得cn(d,κ)的图完全位于点(c,κ)之下。例如,对于图中的(c,κ),存在样本量和决策规则d,如(2.34)满足。请注意,(2.34)也分别满足nand d和nand d处的点(c,κ)和(c,κ)。为了验证PAMPAC的可学习性,所有点(c,κ)必须保持相同的可学习性;特别是,在图中,我们需要找到一个样本大小和决策规则d,这样cn(d,κ)的图形就完全位于点(c,κ)的下方。在不可学习的环境中,对任何给定决策规则的理论性能的事前限制,使其成为理论分析的重要对象。尽管PAMPAC可学习性似乎是一个薄弱的概念,但在一些琐碎的环境中,政策空间Γ可能不是PAMPAC可学习的。例1(同时离散选择(续))。考虑一下示例1的一般设置。为简单起见,假设K=1,并考虑以下修改。设Z=[-1,1]和Θ=[-1,1]设πk(Zk,Y)-Kθ) =πk(Zk;θ)=sin(Zk/θ)。那么Yk由方程确定:Yk={sin(Zk/θ)≥ 英国}。现在考虑一个包含所有函数γ:Z的策略空间→ Z、 假设我们对策略变换感兴趣:I[~n](γ):=ZOhmν(ω,γ)dP=ZOhm{Y?k,γ(ω)=1}dP,其中φ(ω,γ)={Y?k,γ(ω)=1}和:Y?k、 γ={sin(γ(Zk)/θ)≥ 英国}。在这种情况下,我们声称政策空间Γ可能无法从政策空间Γ中学习。重要的是要认识到,PAMPAC可学习性的可能失败并不取决于本例中正弦函数的选择,该函数仅用于说明目的。事实上,下面的例子表明这个想法更为普遍。示例2(项目评估(续))。

45
nandehutu2022 在职认证  发表于 2022-4-26 14:59:37
考虑示例2的一般设置,并进行以下修改。设Z=[-1,1]并设Θ表示值为[-1, 1].否则,保持事实领域的所有其他方面不变。现在考虑一个包含所有连续函数γ:Z的策略空间→ Z.假设我们仍然对φ(ω,γ)=Y的策略变换感兴趣?γ(ω),其中:Y?γ=U(1)-Dγ) +UD?γ、 (2.36)随机变量D在哪里?γ由以下公式给出:D?γ={θ(γ(Z))≥ U} 。在这种情况下,我们声称政策空间Γ可能无法从政策空间Γ中学习。这些例子说明,政策空间的可学习性可能存在局限性。在第一个样本中,可学习性可能会失败,因为结构函数决定了Y?的反事实值?k、 γ太“复杂”,因此无法用任何有限的数据充分近似(或“学习”)。类似的解释适用于第二个例子,尤其是决定D?值的结构函数?γ. 在接下来的部分中,我们将探讨与某些功能空间的复杂性约束精确相关的策略空间的可学习性的充分条件。在建立一个特定的策略空间是可学习的,这是一个事前(即观察样本之前)的概念之后,我们将讨论如何评估特定的决策规则,这是一个事后(即观察样本之后)的概念。

46
可人4 在职认证  发表于 2022-4-26 14:59:43
这两个部分都与决策问题的理论评估有关。2.5定义2.4中的(2.34)建议了向前的路径,正如引言中所讨论的那样,为了确定给定的政策空间Γ是否是可学习的,首先提供一个凹函数的特征是有用的:I`b[Γ](γ):=infs∈SI[~n](γ,s),Iub[~n](γ):=sups∈SI[~n](γ,s)。注意,在真实分布PY,Z处,函数I`b[~n](γ)用作策略转换I[~n](γ)的下限。类似地,函数Iub[~n](γ)用作上限。回想一下,这一想法在导言中如图1所示。在PAMPAC可学习性的情况下,如果在某些条件下可以提供下包络函数I`b[~n](γ)的可处理特征,那么确定策略空间是否为PAMPAC可学习性将导致找到决策规则d:ψn的问题→ Γ满足:infPY,Z∈PY,ZP纽约,Zsupγ∈ΓI`b[Γ](γ)- I`b[~n](d(ψ))≤ C≥ κ、 (2.37)对于足够大(但有限)的n.因此,在下一节中,我们将在返回到第4节中的政策选择问题之前,重点获得包络函数的可处理特征。一旦给出了下(或上)包络函数的易于处理的特征,我们将给出PAMPAC可学习性的充分条件。除了其对我们事前分析的重要性外,我们还将看到,在第5.3节“政策转换的包络函数”3中,包络函数的可处理性表征对于我们事后分析决策者的决策问题也至关重要。1初步在本节中,我们推导了上一节中定义的包络函数I`b[~n](γ)和Iub[~n](γ)的有用特征。我们将证明这些包络函数可以写成用γ参数化的优化问题的值函数∈ Γ.

47
kedemingshi 在职认证  发表于 2022-4-26 14:59:49
在得出我们的可学习性结果时,以及在接下来的章节中,对于我们的事后样本分析,我们的具体描述将非常重要。然而,对于那些对部分识别感兴趣的人来说,本节中的结果可能具有实质性的独立意义。在给出本节的主要结果之前,我们首先确定结构参数和政策转换的识别集。一般来说,这些识别集必须相对于分布Py,Z进行定义。为了便于符号化,这一点在本节中一直是隐式的。我们现在开始介绍一些额外的符号。对于下一定义中的一些符号,读者可以参考附录A,其中讨论了arandom集合中的可选择性概念。定义3.1(选择分布)。集合PU | Y,Z(θ)包含所有正则条件概率度量PU | Y,Z,每个PU | Y,Z∈ PU | Y,Z(θ)是某些选择U的分布∈Sel(G)-(·, θ)); 即:PU | Y,Z(θ):=PU|Y,Z:U~ PU | Y,Zf对于某些U∈ Sel(G)-(·, θ)). (3.1)此外,收集?γ| Y,Z,U(θ,γ)包含所有正则条件概率测度PY?γ| Y,Z,通常是每个PY?γ| Y,Z,U∈ 皮耶?γ| Y,Z,U(θ,γ)是某些选择Y的分布吗?γ∈ Sel(G?(·,θ,γ));例如,参见Chesher和Rosen(2017a)中的定义3以及相关讨论。显然,集合PU | Y,Z(θ)也依赖于PY,Z,尽管我们始终抑制这种对符号简单性的依赖。是:皮耶?γ| Y,Z,U(θ,γ):=nPY?γ| Y,Z,U(θ,γ):Y?γ~ 皮耶?γ| Y,Z,U(θ,γ)对于某些Y?γ∈ Sel(G?(·,θ,γ))o.(3.2)我们将很快看到,假设2.1中U的紧性是非常方便的。实际上,请注意,在U的紧性下,集合PU | Y,Z(θ)对于任何θ都是一致紧的。

48
大多数88 在职认证  发表于 2022-4-26 14:59:55
如果PU | Y,Z(θ)也在弱态中闭合*拓扑,则集合PU | Y,Z(θ)在弱*拓扑结构,允许对声明进行简化,并对许多结果进行证明。然而,由于-是闭合的,后一个结果直接来自这样一个事实,即每个选择U∈ Sel(G)-(·,θ))由一个紧集支持。因此,在我们的整个论述中,我们可以利用这样一个事实,即PU | Y,Z(θ)在弱空间中是紧的*拓扑结构。除了这个结果带来的简化之外,它还解决了一个与从相同分布的随机集进行选择有关的有意义的问题。事实上,两个相同分布的随机集可能具有不同的可测量选择集,尽管*他们可测量的选择的结束总是一致的。因此,U的紧性完全解决了这个问题,它确保集合PU | Y,Z(θ)在弱空间中是闭合的*拓扑结构;换句话说,在假设2.1和2.2下,这意味着两个相同分布的随机集G-(Y,Z,θ)和G-(Y,Z,θ)(参见附录A中的定义A.2)将具有相同的可测量选择集。通过定义3.1规定的附加符号,我们现在对结构参数的定义如下:定义3.2(确定的结构参数集)。在假设2.1和2.2下,确定的集合Θ*结构参数(关于分布PY,Z)的计算公式为:Θ*:=θ ∈ Θ:infPU | Y,Z∈PU | Y,Z(θ)maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]≤ 0.

49
能者818 在职认证  发表于 2022-4-26 15:00:02
(3.3)PU | Y,Z(θ)在弱界面中的紧致性*拓扑结构与力矩条件的有界性相结合,确保了Θ定义的精确性*已获得。虽然我们在本文中的重点不是确定的结构参数集,但这一定义将有助于定义政策转变的确定集以及证明。为了说明政策转换识别集的定义,我们需要首先定义以下功能:*(θ,γ,I,PY?γ| Y,Z,U,PU | Y,Z):=max艾比?γ| Y,Z,U×PU | Y,Z×PY,Z[ν(Vγ)-[I], maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]. (3.4)清楚地表明了收集的重要性?γ| Y,Z,U(θ,γ)也依赖于PY,Z,U,尽管为了符号的简单性,我们抑制了这种依赖性。见Corbae et al.(2009)第575页定理9.9.2,以及相关讨论。见第79页Molchanov(2017)定理1.4.3。这是在注意到映射PU | Y,Z7之后的极值定理→ 当矩函数mj一致有界时,EPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]是连续的。直观地说,当且仅当(i)在分布PY,zan和对(θ,PU | Y,Z)满足所有力矩条件,并且(ii)如果点“i”是输入(θ,γ,PY?γ| Y,Z,U,PU | Y,Z)的策略转换的结果值时,该函数小于零。因此,它代表了将点“I”包含在策略转换的标识集中所需的所有条件。我们现在有以下定义:定义3.3(为政策转换确定的集合)。在假设2.1、2.2和2.3下,对于任何γ∈ ΓI[Γ](γ)(关于分布PY,Z)的识别集由以下公式给出:*[φ](γ) :=[θ∈Θ*I[~n](θ,γ),(3.5)式中:I[~n](θ,γ):=我∈ R:PU|Y,Z∈ PU | Y,Z(θ)和PY?γ| Y,Z,U∈ 皮耶?γ| Y,Z,U(θ,γ)满足I*[φ]θ、 γ,我,PY?γ| Y,Z,U,PU | Y,Z≤ 0.

50
可人4 在职认证  发表于 2022-4-26 15:00:08
(3.6)我们在本节中的主要结果将试图为政策转换的识别集提供更具洞察力的特征,这对于下一节中考虑的政策选择问题也至关重要。然而,在说明我们的主要识别结果之前,我们需要以下技术假设。假设3.1(误差范围)。(i) (线性最小值)存在δ>0和C>0的值,因此对于每个θ∈ Θ:infPU | Y,Z∈PU | Y,Z(θ)maxj=1,。。。,J | EPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]|+≥ Cmin{δ,d(θ,Θ)*)}. (3.7)(ii)(局部反事实稳健性)存在一个值C≥ 对于任何θ∈ Θ*δ:={θ:d(θ,Θ)*) ≤ δ} :infPU | Y,Z∈PU | Y,Z(θ)infPY?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ,γ)Z|(v)dPVγ≥ infθ*∈Θ*infPU | Y,Z∈PU | Y,Z(θ)*)不舒服?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ)*,γ) Z k(v)dPVγ- Cd(θ,Θ)*), (3.8)和:supPU | Y,Z∈PU | Y,Z(θ)supPY?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ,γ)Z|(v)dPVγ≤ supθ*∈Θ*补充| Y,Z∈PU | Y,Z(θ)*)苏比?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ)*,γ) Z~n(v)dPVγ+Cd(θ,Θ)*). (3.9)直觉上,假设3.1有两种说法。首先,假设的第(i)部分是一个全局条件,它要求∈ Θ \\ Θ*, 至少有一个力矩函数可以被(3.7)右边的函数限定在下面。一般来说,这种情况与文献中以前的情况非常相似;例如,参见Chernozhukov等人(2007)第4节中的“部分识别条件”。2.此外,参见Kaido等人(2019年)对类似情况的回顾。主要的差异来自于所有PU | Y,Z条件必须保持的事实∈ PU | Y,Z(θ),因为本文中的力矩条件允许依赖于潜变量。验证条件(i)通常可以通过首先列举包含θ的所有场景来完成/∈ Θ*, 然后验证每个场景的条件是否成立。这正是在验证示例中的假设时使用的策略。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 23:07