楼主: 可人4
3294 142

[经济学] 策略转换和学习最优策略 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.1643
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-4-26 14:54:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Policy Transforms and Learning Optimal Policies》
---
作者:
Thomas M. Russell
---
最新提交年份:
2020
---
英文摘要:
  We study the problem of choosing optimal policy rules in uncertain environments using models that may be incomplete and/or partially identified. We consider a policymaker who wishes to choose a policy to maximize a particular counterfactual quantity called a policy transform. We characterize learnability of a set of policy options by the existence of a decision rule that closely approximates the maximin optimal value of the policy transform with high probability. Sufficient conditions are provided for the existence of such a rule. However, learnability of an optimal policy is an ex-ante notion (i.e. before observing a sample), and so ex-post (i.e. after observing a sample) theoretical guarantees for certain policy rules are also provided. Our entire approach is applicable when the distribution of unobservables is not parametrically specified, although we discuss how semiparametric restrictions can be used. Finally, we show possible applications of the procedure to a simultaneous discrete choice example and a program evaluation example.
---
中文摘要:
我们研究了在不确定环境下,使用不完全和/或部分识别的模型选择最优策略规则的问题。我们考虑一个政策制定者,他希望选择一个政策来最大化一个特定的反事实数量,称为政策转换。我们通过一个决策规则的存在来描述一组策略选项的可学习性,该决策规则以高概率逼近策略变换的最大最优值。为该规则的存在提供了充分条件。然而,最优策略的可学习性是一个事前概念(即观察样本之前),因此也为某些策略规则提供了事后(即观察样本之后)理论保证。虽然我们讨论了如何使用半参数限制,但当不可观测的分布不是参数化指定时,我们的整个方法是适用的。最后,我们展示了该方法在同时离散选择和程序评估中的可能应用。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
--> Policy_Transforms_and_Learning_Optimal_Policies.pdf (1.42 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:最优策略 econometrics parametrical Environments SIMULTANEOUS

沙发
mingdashike22 在职认证  发表于 2022-4-26 14:54:50
政策转变与学习最优政策托马斯·M·拉塞尔*Carleton University 2020年12月22日摘要我们研究在不确定环境中使用可能不完整和/或部分识别的模型选择最优政策规则的问题。我们考虑希望选择政策以最大化特定反事实数量的决策者,称为政策转换。我们通过一个决策规则的存在来描述一组策略选项的可学习性,该规则以高概率逼近策略转换的最大最优值。为此类规则的存在提供了充分的条件。然而,最优策略的可学习性是一个事前概念(即观察样本之前),因此事后(即观察样本之后)也为某些策略规则提供了理论保证。虽然我们讨论了如何使用半参数限制,但当不可观测的分布不是参数指定的时,我们的整个方法是适用的。最后,我们展示了该方法在同时离散选择和程序评估中的可能应用。关键词:部分识别、决策理论、统计学习理论感谢顾家英、伊斯梅尔·穆里、爱德华多·索扎·罗德里格斯、亚当·罗森、斯坦尼斯拉夫·沃古舍夫和万元元的反馈和鼓励,我特别感谢赵俊焕长时间的讨论,帮助改进了本文。这篇论文的前一个版本出现在我在多伦多大学的博士论文中。这项研究得到了加拿大社会科学和人文研究委员会的支持。所有的错误都是我自己的。*托马斯·M·拉塞尔,卡尔顿大学经济学系助理教授,加拿大安大略省渥太华市凯伦上校路1125号,K1S5B6。

藤椅
可人4 在职认证  发表于 2022-4-26 14:54:56
电子邮件:托马斯。russell3@carleton.ca.1引言计量经济学的基本目标之一是可靠地将基础经济机制的知识转化为模型,当与样本数据结合时,模型可用于理解反实际政策实验的影响,并有助于指导政策决策。在本文中,我们考虑在计量经济模型部分确定和/或不完整的情况下进行决策的问题。这篇论文的动机是,需要可信的模型来诚实地告知政策制定者反事实政策的影响,即使可信的模型提供了真实数据生成过程的不完整描述。我们的框架足够通用,可以容纳许多现有的结构经济计量模型。我们对环境的描述与约万诺维奇(1989年)和切希尔与罗森(2017a)中的描述相似,这反过来又是库普曼斯等人(1950年)和赫维茨(1950年)等人提出的经济计量模型经典基础的延伸。我们假设所考虑的经济系统表现为一组随机变量,这些随机变量可分为可观察变量,包括可观察的内生变量Y和外生变量Z的向量,以及由向量U表示的潜在或不可观察的变量。我们通俗地称Y和Z中包含的变量为“可观察变量”并将U中包含的变量称为“不可观测”与大多数现有文献不同,我们不把U的分布作为一个模型原语。

板凳
能者818 在职认证  发表于 2022-4-26 14:55:02
这与潜在变量U代表理论模型可以解释的内容与必须解释的内容之间的差距的观点一致;也就是说,“方程中的错误”而不是“变量中的错误”正如我们将要展示的那样,在进行反事实分析时,这种区别变得尤为重要。假设决策者能够访问可观测数据,以及描述可观测数据与不可观测数据之间关系的计量经济学模型。该模型可能依赖于参数θ的向量∈ Θ; 这里只要求Θ是一个完整且可分离的度量空间,这允许在非参数分析中使用许多函数空间。然后,我们让Γ表示决策者正在考虑的所有可能政策集合的抽象,其中γ∈ Γ表示这样一种政策。每一项道德政策∈ Γ代表对潜在的现有经济系统的干预,其作用是从外生和未观察到的变量中产生内生变量。在经济系统被修改后,由此产生的系统现在可能会产生新的或反事实的内生变量分布。因此,通过改变基础经济系统,政策干预会导致内生结果变量的事实(或观察到的)和反事实(假设和未观察到的)分布发生变化。潜在变量不受政策的影响,而是遵循Morgan(1990)第6章中对误差项的两种解释。

报纸
何人来此 在职认证  发表于 2022-4-26 14:55:08
我们建议秦和吉尔伯特(2001)回顾一下人们对潜在变量的态度是如何随着时间的推移而演变的。作为事实和反事实领域之间的重要联系。然后,决策者的问题被表述为选择政策干预的问题,该政策干预会导致内部结果变量的反事实分布,根据某些标准,这些变量是有利的。我们将反事实的内生结果变量表示为Y?γ、 γ指数强调其分布将取决于反事实政策实验γ这一事实∈ Γ正在考虑中。在这种设置下,本文主要关注一类特殊的反事实量,其可以用以下形式书写:I[~n](γ):=Z~n(v)dPVγ。(1.1)这里φ是一些函数,Vγ:=(Y?γ,Y,Z,U)是描述事实域和反事实域的所有随机变量的向量,PVγ表示Vγ的分布,V表示Vγ的实现。特别是,运算符I[·](γ)取内生、外生、未观测和反事实变量的向量v的函数,并将其映射到策略参数γ的函数I[ν](γ)。因此,我们将I[·](γ)视为一种政策转变。正如我们将在同步离散选择和项目评估的示例中所示,可以写成策略转换的反事实对象包括反事实选择概率和反事实平均效果。

地板
kedemingshi 在职认证  发表于 2022-4-26 14:55:14
如果政策制定者的反事实利益对象可以写成某个函数的政策转换,那么由此产生的政策转换提供了政策制定者比较各种政策和做出政策选择所需的所有信息。在整篇论文中,我们考虑了希望最大化政策转变价值的决策者,尽管我们的分析同样适用于决策者希望最小化政策转变价值的情况。决策者完全了解向量Vγ的分布,可以面对一个简单的决策问题,并且可以简单地选择策略γ,该策略γ可以获得最大的策略变换I[~n](γ)。然而,这种理想化的决策问题在实践中很少遇到,相反,决策者可能只能获得观察到的随机变量的有限样本。此外,即使有一个有限的样本,在任何可信的假设下,也可能无法确定政策转变。在整个讨论过程中,这一点尤其正确,因为我们不要求对不可观测U的分布进行参数化规定。为了取得进展,我们将政策决策问题建模为模糊决策,其中我们假设“世界的真实状态”属于状态空间S×PY,Z。这里PY,Zis是可观测空间Y×Z上所有可钻性测度的集合∈ S和一对条件分布(PU | Y,Z,PY?γ| Y,Z,U)有关。拿一双(s,PY,Z)∈ S×PY,zt要成为真实状态,政策制定者可以在对应于该状态的(1.1)中评估策略转换。将依赖项保持在PY,Zimplicit上,我们将状态(s,PY,Z)中的策略转换表示为I[~n](γ,s),并将其称为状态依赖策略转换。然后,我们考虑决策者在获得aFrom Pearl(2009)p时的决策问题。

7
mingdashike22 在职认证  发表于 2022-4-26 14:55:22
211:“背景变量是从现实世界到假想世界的主要信息载体;它们在将前者转化为后者的动态过程中充当“不变性”(或持久性)的守护者。”来自真实分布的有限样本。让ψn表示所有可能n的空间-样本{(yi,zi)}ni=1,且设d:ψn→ Γ表示从样本实现映射到策略的(可测量的)决策规则。在样本ψ之前∈ ψd(ψ)将是一个随机变量,然后决策者的问题转化为根据一些合理标准选择决策规则的问题。然而,在不了解真实情况的情况下,不清楚决策者应该如何(按照规定)在各种决策规则中进行选择或排序。对任何排名决策规则的方法来说,一个几乎不言而喻的要求是,排名应该尊重弱优势;也就是说,如果每个PY,Z∈ PY,Zwe有I[~n](d(ψ),s)≤ 对于每一个s,I[~n](d(ψ),s)a.s∈ S、 然后d应该优先于d。然而,很明显,根据这种偏序,许多决策规则将不具有可比性。为了进一步研究,我们引入了一种偏好关系,它超越了所有决策规则的空间,这是由计算学习理论激发的。特别是,fix anyκ∈ (0,1)设cn(d,κ)为最小值:infPY,Z∈PY,ZP纽约,Zinfs∈SI[~n](d(ψ),s)+cn(d,κ)≥ supγ∈Γinfs∈SI[~n](γ,s)≥ κ. (1.2)然后在我们的框架下,一个决策规则d:ψn→ Γ弱于决策规则d:ψn→ Γ如果cn(d,κ),则κ水平和样本量n≤ cn(d,κ)。这种偏好关系似乎是新的,并且(在一定程度上)与现有的频繁决策理论文献不同。

8
能者818 在职认证  发表于 2022-4-26 14:55:35
然而,它与计算学习理论中的概率近似正确(PAC)学习框架有着密切的联系,这使得我们可以利用统计学习理论和经验过程理论的丰富结果来研究它的理论性质。此外,这种偏好关系导致总体排序,我们在第2节中的第一个结果表明,这种偏好关系至少尊重弱优势。鉴于这种偏好关系,在本文中,我们将使用值cn(d,κ)来衡量给定样本量n和置信水平κ下决策规则d的“性能”或“质量”。然后,我们为决策者的决策问题提供了两组理论结果。在第一组结果中,我们提供了决策问题的条件,以保证决策规则d的存在,使得cn(d,κ)随着样本量n变大而趋于零。这种决策规则的存在是政策空间可学习性概念的特征。政策空间学习能力的定义在经济学中似乎是新的,尽管它是根据Valiant(1984)提出的广受欢迎的计算机科学PAC学习框架改编的。我们的具体分析主要涉及Haussler(1992)提出的PAC学习模型的决策论推广,即认知PAC学习模型。我们表明,即使在简单的环境中,政策空间也可能无法学习。在这种情况下,政策制定者的决策问题仍然很明确,但即使在大样本情况下,任何给定政策的执行效果也会受到理论上的限制。然后,我们为可学习性提供了充分的条件,这与问题中函数类的某些复杂性度量有关;特别是第2.3节的定义。覆盖/包装数和度量熵的行为。

9
大多数88 在职认证  发表于 2022-4-26 14:55:44
我们定义了一个“熵增长条件”,并证明如果我们环境中的某些关键函数类满足该条件,那么策略空间Γ是可学习的。我们的熵增长条件的原始条件可以在关于经验过程和统计学习的文献中找到。除了对可学习性有帮助外,我们还展示了如何使用该条件来确定收敛速度。然而,由于可学习性是一个事前概念(即在观察样本之前),验证可学习性可能对给定策略规则的事后表现(即在观察样本之后)没有信息。因此,我们的第二组结果为决策者提供了一种手段,可以对自己选择的政策规则进行事后分析。首先,我们研究称为ε的特定决策规则的有限样本性质-maximin经验(eME)规则,选择ε-最坏情况下的最大值(超过s)∈ S) I[~n](γ,S)的经验衰减。利用集中不等式,我们给出了当d为eME规则时,数量cn(d,κ)的上界,并证明了上界是如何受到决策问题的各种特征的影响的。然而,eME规则只是一个特定规则,出于许多原因,它可能不是决策者选择的政策规则。因此,我们转向近似所有策略集γ的问题∈ Γ满意:γ7→ supγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](γ,s)≤ δ、 (1.3)概率至少为κ;请注意,在这个集合中选择策略的任何决策规则都将因此具有cn(d,κ)≤ δ. 我们将这组策略称为“δ-水平集”,并展示了统计学习理论中关于超额风险界限的文献中的一个过程如何适应我们的环境,以近似δ-水平集。

10
何人来此 在职认证  发表于 2022-4-26 14:55:52
最后,我们证明了eME决策规则在δ中选择策略-δ足够大的可能性很高,为其使用提供了进一步的合理性。与可学习性的第一次事前分析不同,包括事后分析在内的所有结果都不要求满足熵增长条件或任何其他可学习性的充分条件。因此,无论政策空间Γ是否可学习,它们都适用,尽管它们对收敛速度保持沉默。综上所述,我们相信我们的两组理论结果提供了一种制定和评估决策的综合手段。本文也从身份识别的角度做出了贡献。也许毫不奇怪,我们研究政策决策的一个重要理论对象是以下政策变换包络函数:I`b[~n](γ):=infs∈SI[~n](γ,s),Iub[~n](γ):=sups∈SI[~n](γ,s)。不管真实(子)状态是什么∈ S、 在真实分布PY中,zt(1.1)中的策略转换可以“夹在”这些上下包络函数之间。这个想法如图1所示。因此,我们能够对这些包络函数进行易于处理的描述,这对我们的图1至关重要:该图说明了一些函数的策略转换,以及上下包络函数Iub[](γ)和I`b[](γ)(分别)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 17:46