楼主: 何人来此
833 11

[经济学] 当代理人是战略性的时,学习个性化治疗 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-20 21:46:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
基于观察到的个人数据来分配治疗越来越有兴趣:例子包括不同的定价、个性化的信贷提供和有针对性的社会项目。政策目标引入激励措施,鼓励个人改变自己的行为,以获得更好的治疗。我们证明了当观察到的协变量内生于治疗分配规则时,基于标准风险最小化的估计量是次优的。我们提出了一个动态实验,它收敛到最优治疗分配函数,而不需要对个体策略行为的参数假设,并证明了它具有以线性速率衰减的遗憾。我们在模拟和小型MTurk实验中验证了该方法。
---
英文标题:
《Learning to Personalize Treatments When Agents Are Strategic》
---
作者:
Evan Munro
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Computer Science and Game Theory        计算机科学与博弈论
分类描述:Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面,包括机制设计的工作,游戏中的学习(可能与学习重叠),游戏中的agent建模的基础(可能与多agent系统重叠),非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
英文摘要:
  There is increasing interest in allocating treatments based on observed individual data: examples include heterogeneous pricing, individualized credit offers, and targeted social programs. Policy targeting introduces incentives for individuals to modify their behavior to obtain a better treatment. We show standard risk minimization-based estimators are sub-optimal when observed covariates are endogenous to the treatment allocation rule. We propose a dynamic experiment that converges to the optimal treatment allocation function without parametric assumptions on individual strategic behavior, and prove that it has regret that decays at a linear rate. We validate the method in simulations and in a small MTurk experiment.
---
PDF下载:
--> English_Paper.pdf (702.88 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:代理人 战略性 个性化 econometrics Applications

沙发
能者818 在职认证  发表于 2022-4-20 21:47:05
当AgentsAre Strategic时学会个性化治疗Cevan Munro*斯坦福大学商学院于2022年3月21日抽象数据:例子包括有针对性的营销、个性化信贷和异质化。治疗个性化引入激励,促使个人改变自己的行为,以获得更好的治疗。这改变了协变量的分布,要求显式依赖于治疗的分配方式。我们给出了策略行为的必要条件,我们证明了最优规则可以包括随机化,甚至将低于100%概率的治疗分配给由该规则诱导的阳性治疗。我们提出了一个基于贝叶斯优化的动态实验,该实验在没有参数假设的情况下收敛到最优治疗分配函数。关键词:Stackelberg游戏、鲁棒性、治疗规则*Frankel、Guido Imbens、Stefan Wager、Bob Wilson和Kuang Xu寻求有益的评论和讨论。http://github.com/evanmunro/personalize-policy.arxiv:2011.06528 v4[econ.em]2021年3月17日介绍越来越多的个人层面的数据收集增加了在各种环境中个性化治疗的可行性。不同程度地对待个人可以改善根据消费者的购买历史使用优惠券的情况,与给每个人分配相同的优惠券相比,可以提高收入。食品检查员或检验人员的分配可以通过将他们分配到对检查反应最大的安全改善机构来改善(Athe,2017;Glaeser等人,2016)。电话使用等数据(Bj"orkegren和Grissen,2019)。待遇。本文研究了当Agent根据treatmentrule策略性地报告协变量时,如何最优地分配一个二元处理条件下的观察协变量。在优惠券示例中,一个利润最大化的卖家希望只分配优惠券。然而,卖方不能直接观察买方的类型,所以取而代之的是改变他们的行为来模仿一个不情愿的买方,并节省他们的购买费用。因此,观察到的协变量的分布可以根据分配规则的结构而改变,这影响了治疗如何优化分配。n这使该框架中的预期结果最大化。有大量的相关文献研究了当代理人操纵线性环境下,可操纵特征被低估时估计预测规则(Frankel和Kartik,2020;Ball,因果设置。正如Athe(2017),《预测和因果推断的问题》,从一般的最优预测规则》(Ascarza,2018;Bertsimas和Kallus,2020)中描述的那样。在非战略环境中,关于政策学习的文献表明,在各种框架中,Wager,2020)。本文试图解决的文献中缺少的是如何对个体进行异质性治疗,即对阳性个体进行概率为1的个体化治疗的预期结果与对照结果之间的差异。这个规则的一个经验版本被称为条件经验成功规则(Manski,2004)。当存在XHOW时,最优规则将治疗分配给由该规则诱导的正效应,且治疗概率大于零的治疗。

藤椅
nandehutu2022 在职认证  发表于 2022-4-20 21:47:11
对于某些形式的策略行为,在治疗规则中增加一些随机化,减少了从事策略行为的动机,因此有时会导致治疗的条件分布,从而更适合于缺陷目标。我们提供了两个例子来进一步说明这一理论结果。负面个体治疗是策略性的,以增加它们在根据观察到的协变量对歧视做出反应时变得越来越策略的概率。策略行为。使用a/B检验来估计CATEs,并分配具有正估计Cuto hensed或随机结构的个体。本文的另一个贡献是设计了一个序列实验,允许规划者在不对agent策略行为进行任何参数假设的情况下,随着时间的推移学习最优处理规则。我们证明了处理规则的估计问题可以转化为一个零阶随机优化问题。然后,基于贝叶斯优化方法,利用序贯含噪函数评价来估计最优治疗分配规则,该方法对目标函数施加了除平滑性之外的最小假设。在文章的第四部分,我们给出了一个MTurk实验,证明了平均治疗的有效性。我们使用这个实验的数据来运行一个半综合的快速减少后,低数量的噪声评估的对象。相关的工作设置。Stackelberg模型是由Hardt等人提出的预测环境下的战略行为模型。(2016)并引发了越来越多的战略分类文献。这篇文献的一个方面研究了收敛于最优预测规则的算法。东埃塔尔。(2018)使用无导数凸优化,当代理策略是对连续协变量的高成本操纵时,该凸优化收敛到最优值。在经济学上,Bj"orkegren Etal。(2020)使用了一个随机实验,该实验改变了该模型下预测函数最优的coe_cients。在这篇论文的版本之后,Miller等人。(2021年)和伊佐等人(2021)还通过引入一些轻结构假设,通过衍生凸优化的变体计算了最优预测规则。另一类近似最优策略,如重复风险最小化(Perdomo等人),我们引入了一个序列实验来直接估计最优治疗分配规则。预测可以被认为是一种干预,正如Miller干预所描述的那样,干预不能归结为一个标准的分类问题,因此需要新的分析。第二个区别是,我们的估计器的遗憾性质不需要参数分配规则;这些假设经常在分类文献中提出,并在更一般的因果框架中得到验证。论文中,我们导出了治疗分配的补充结果。我们发现,在策略代理的治疗分配中存在一种加权不足的形式,其中最优规则的概率为100%。规则在越来越多的环境中。文献考虑了来自arandomized实验(Manski,2004)或观察(Athey and Wager,2020;Kallus and Frameworks(Hirano and Porter,2009)下的预算(Bhattacharya and Dupas,2012)的数据,我们的论文检验了当代理人在与文献中的初始论文更具可比性的环境中制定策略时,无约束最优规则的结构,其中处理是二元的,协变量是离散的,目标是最大化预期结果。估计溢出或平衡下的因果量,并为这些更复杂的环境设计新的实验形式(Vazquez-Bare,2017;Viviano,2020;Munro et al.,2021)。

板凳
nandehutu2022 在职认证  发表于 2022-4-20 21:47:18
2治疗分配模型2.1外源协变量的治疗分配我们首先讨论了Manski(2004)的经典设定。每一个ofi∈,....................................................................................治疗分配进行如下:1。对于每个x∈x.2,规划器指定δ(x)=Pr(WI=1XI=x)。从Bernoulli采样(δi)进行二元处理,其中δi=δ(Xi)。观察结果为Yi=Yi(Wi),xiδx→,ddδδ∈,Deyiwiτxeyi-yixixxδx最优处理规则。利用贝叶斯规则,E[yi(Wi)]=xx∈xδ(x)E[yi(1)xi=x]+(1-δ(x))E[yi(0)xi=x]。(1)命题1.假设密度f(x)>0对于allx∈x。最大化期望结果的策略是由δ(x)=(τ(x)>0)对于x∈x。这个规则基于一个有限的数据样本,我们只需要τ(x)的一个估计,它可以用伯努利随机实验的数据构造出来,τ(x)=npi=1(xi=x,wi=1)yinpi=1(xi=x,wi=1)yinpi=1(xi=x,wi=0)yinpi=1(xi=x,wi=0)yinpi=1(xi=x,wi=0)。δxτx>x∈xδx最优规则。2.具有策略Agentsi的治疗分配..,n}Xi∈XXDIXIXIXIδXI,D→X处理规则。XI·,{Yi,Yi}.Gcan现在被描述为一个Stackelberg对策:1.对于每个x∈x,planner规定δ(x)=Pr(wi=1xi=x)。2.对于i∈[n],agenti报告协变量xi(δ)∈x。在许多情况下,我们可以解释tui·xi(δ)=arg maxxδ(x)Ui(x,1)+(1-δ(x))Ui(x,0)。在本节中,我们描述了最优规则的结构,我们假设潜在的结果对潜在的结果也依赖于δ.3的情况是鲁棒的。对于i∈[n],Wiis取自δ(Xi)。观察结果Yi=Yi(Wi)。δxxxi异质效用函数,当最大化时,决定个体对某一治疗分配规则的反应。保持不变。π(δ)=E[yi(Wi)],并将一个最优规则定义为δ*∈arg maxδ∈[0,1]de[yi(Wi)]。每个可能的治疗规则的相关关系为:τ(x,δ)=e[Yi(1)-Yi(0)Xi(δ)=x]。一个好的靶向规则的自然猜想是命题1中的cuto-heled规则的推广。具有战略智能体的Cuto hold规则满足以下条件:δC(x)=(τ(x,δC)>0)。(2)根据δC引起的XI分布,计算了CATE。根据战略行为的形式,可能不存在符合此规定点条件的Cuto规则。在它存在的条件下,我们将证明最优分配规则有时具有这种形式,但在其他情况下不具有这种形式。δfx,δp rxiδxBayes规则将π(δ)展开为π(δ)=xx∈xf(x,δ)δ(x)δ(x)μ(1,x,δ)+(1-δ(x))μ(0,x,δ).其中μ(w,x,δ)=e[yi(w)Xi(δ)=x]。处理规则现在进入客观规则。为了取得一些进展,我们需要施加一些规律性条件。策略行为,使得协变量的边际分布和报告某一协变量值的个人的平均潜在结果随分配规则的变化而平稳变化。假设1.条件结果函数μ(1,x,δ)和μ(0,x,δ)是在δ中的二元论,且对每个x∈x有界。f(x,δ)在δ中对于每一个x∈x也是可分的。δ域,在[0]上达到最大值,1]d,我们将其定义为:v=maxδ∈[0,1]dπ(δ)。最大值集{δ:π(δ)=v*},我们表示δ*的任何元素,都保证定理1。μx,δδx,x,δ-δx,x,δ以下是任何最优规则δ*必须满足的必要条件:存在长度向量λ≥0和λ≥0,使得对于每一个x∈x,f(x,δ*)[τ(x,δ*)]+xz∈x f(z,δ*)δ*(x)+f(z,δ)δ*(z)μ(1,z,δ*)δ*(x)+(1,z,δ)δ*(x)+(1,z,δ)δ*(x)+(1,z,δ)δ*(x)+(1-δ*(z))θ(0,z,δ*)δ*(x)λx+λx=0(3)(δ*(x)-1)λx=0,和δ*(x)λx=0,和0≤δ*≤1。

报纸
可人4 在职认证  发表于 2022-4-20 21:47:24
如果π(δ)是凹的,那么这个必要条件也是保证该规则是π(δ)的全局极大值的必要条件。我们可以在等式3中得到条件的策略分量ass(x,δ)=xz∈x f(z,δ)δ(x)μ(z,δ)δ(z)μ(1,z,δ)δ(x)+(1-δ(z))μ(0,z,δ)δ(x){z}条件分布移位。(4)δxfx,δτx,δsx,δxsx,δ回到命题1的设置中。如果CATE是正的,那么,策略行为δxδ*x的导数,目标对τx的一个参数的导数,δδ的结果给出协变量。治疗规律的改变导致XI分布的改变。如果分布移动响应于δ(x)的小增加,结果是:1。更多的个体报告与更高的实现结果相关的协变量2.μ,z,δδ(z)更接近于1和3.μ,z,δδ(z)更接近于零,策略部分捕捉了改变治疗规则如何导致Xi的分布,这些分布或多或少与个体治疗e-ectτi=yi(1)-yi(0)相关。这说明了计划者很容易区分那些有积极治疗的人和那些有消极治疗的人,并影响了最优分配规则的结构。假定形式为δC(x)=(τ(x,δC)>0)~x∈XSGNS~x,δCSGNτ~x,δCS~x,δC>F(x,δC)τ(~x,δC),则δ=δC,最优规则不具有形式为δ^=δC.如果不存在这样的~X,且π(δ)是凹的,那么即使存在策略行为,最优规则也是最优的。Sx,δCτX,δ-在推论1中所述的条件下,最优规则是一个内部解,对于X∈X的某些值,我们诱导一些随机化,其中0<δ*(X)<1。当XICAN取许多可能的值时,一般对s(x,δC)的解释比较复杂,而s(x,δ)的XI∈L,H}形式是简单的,我们可以给出一些直观的条件,在这些条件下(x,δ)与τ(x,δ)具有相同的符号,从而使Cuto定理是最优的。我们接下来介绍假设2。Xi∈{L,H}δC{L,H}→,δC(L)=0且τ(L,δC)<0,δC(H)=1且τ(H,δC)>0。我们还将策略行为限制为从Mlintoh中选择的形式(Heckmanand Vytlacil,2005)。一定比例ρHL异构成本的报告H,CI。对于报告规则不恒定的代理人,我们可以将其效用函数写为:ui(x)=viδ(x)-Ci(x=H)假设3的一个含义是战略报告函数可以采取两种可能的形式之一:xi(δ)∈{H,L+(H-l)(δ(H)-δ(L)≥Ri)},其中i=civi。在这些假设下,推论2提供了一个条件,限制局部平均治疗的标志E-ECT(LATE)。在此条件下,假设2中的Cuto lited规则满足定理1的必要条件。推论2。在假设2和3中,如果在Cuto lited规则的局部区域中具有策略性的个体具有正的平均治疗E-ect,那么[Yi(1)-Yi(0)ri=1]≥0,δCδ凹,δCi是全局最优的治疗规则δ*。与在外源中总是最优的Cuto lited规则不同的治疗规则,则后期条件将被满足,一个Cuto lited规则是最优的。在这种情况下,计划者和个人之间的激励是一致的;对此有积极反应的个体。对齐。从计划者的角度来看,对治疗有负面反应的人可能是那些喜欢治疗足以改变他们行为的人。如果具有负ITE的个体是策略性的,那么推论的后期条件2就不满足,内部解可以是最优的,而不是最优的规则。我们通过遵循假设2和假设3的两个简单模型来说明这一点。

地板
kedemingshi 在职认证  发表于 2022-4-20 21:47:30
2.3二元协变量的例子在每一个模型中,我们计算了三种不同分配策略的待遇分配、分配和目标函数:1。δ(H)=δ(L)=0.52的统一分配策略。δ(H)=1和δ(L)=03的Cuto-hing规则。使预期结果最大化的最优规则示例1。通过Couponsi∈[n]的价格歧视,存在一个未观察到的θiBernoulli(0.5)型,它决定了潜在的结果{Yi(1),Yi(0)}和报告行为xi(δ)。θi=0的顾客总是购买者,如果他们收到优惠券,θi有75%的概率。购买一个产品,没有优惠券的情况下可获得10美元的优惠,有优惠券的情况下可获得5美元的优惠。这会导致潜在的outcomesYi(Wi)=5·(0.75θi+(1-θi))Wi+10·(1-θi)(1-Wi)。商店观察到xi∈{L,H}而不是θi,其中xi=H表示顾客已经离开了xiilxi=H。然而,当优惠券在XI的基础上分配时,这引入了激励个体行为变化的特定成本ci∈0,10),并用以下效用函数来描述:ui(x)=5·δ(x;β)-Ci(1-θi)(x=H)。这导致一个行为函数遵循假设3:xi(δ)=θih+(1-θi)L+(5(δ(H)-δ(L))≥Ci)(h-l)。当处理δHδlxixi(δ)时,最优策略是最大利润的优惠券分配程序。δ*=arg maxδe[yi(Wi)]表1描述了优惠券τH,δ.τL,δ-模型中三种直接分配规则的性能,目标值为4.688美元。我们可以实现一个cuto规则δC(H)=1和δC(L)=0,它将预期结果提高到5.626美元。但是,由于δC(H)=δC(L)的策略行为现在是由θI=0的策略行为引起的。在附录B.1中,我们表明Xinow的分布依赖于δ(H)-δ(L).pr(Xi(β)=HθI=0)=(δ(H)-δ(L)){δ(H)>δ(L)}.一致规则(δ)cuto ho规则(δC)最优规则(δ*)δ(L)0.50.00.0δ(H)0.51.00.75τ(L,δ)-5.00-5.00-5.00τ(H,δ)3.750.831.36π(δ)4.6885.6255.703表1:例1规则中分配规则的性能。利用定理1中的条件,我们可以导出δ*(H)=0的最优规则。δ*负个体处理下的个体是策略性的,计划者和代理人的激励是不一致的。因此,最优靶向规则在分配中具有随机性;这减少了在XI的分布中发生的策略行为的数量。示例2。分配产品升级在第二个示例中,afirrm是用于购买的产品升级。同样,thearencustomers和对每个客户来说i∈[n]是一个未被观察到的类型θiéBernoulli(0.5),它决定了潜在的结果和战略行为。θi=0表示幼稚的客户,θi=1表示成熟的客户,wi=1表示客户接受了产品升级。fiegrm从每个没有得到治疗的客户那里获得5美元的优惠。这种升级惹恼了那些对升级没有用处的天真客户,所以他们减少了。对于老练的客户,他们从产品升级和购买中获益,导致每个接受治疗的老练客户的利润为10美元。yi(Wi)=5(1-Wi)+(1-Wi)(10θi-(1-θi))。幼稚客户的ITE为负,老练客户的ITE为正。firegrm不直接观察客户的老练程度,但他们观察他们是否完成了一个证书coursexi∈L,H}。天真的客户永远不会完成认证课程(XI=L)。在没有产品升级的情况下,老练的客户根据某些随机值vié均匀值(-,10)是否大于等于零来完成认证课程(xi=h)。

7
何人来此 在职认证  发表于 2022-4-20 21:47:36
老练的客户从接受和购买产品升级中获得5美元的价值,因此,当治疗目标是基于证书疗程完成时,这激励了更多复杂的客户toUniform规则(δ)cuto intering规则(δc)最优规则(δ*)δ(L)0.50.00.0δ(H)0.51.01.0τ(L,δ)-1.00-1.20-1.20τ(H,δ)5.00 5.00 5.00π(δ)5.25 6.875 6.875表2:示例2中分配规则的执行完成了这一过程。对于复杂的客户,它们的效用函数isUi(x)=Vi(x=H)+5δ(x)。这导致一个行为函数遵循Xi(δ)=(1-θi)L+θi L+(h-l)(Vi+5(δ(H)-δ(L))≥0.δHδLxIn由Xi(δ)引出。δ*=arg maxδe[yi(Wi)]更精确地针对那些完成认证过程的人,他们在存在有利策略行为的情况下激励规则,见表2的摘要和附录B.2的最优规则的推导。2.4连续协变量的优惠券示例在前面的两个示例中,我们在一个简单的模型中说明了我们的理论结果,其中有一个单一的二元协变量。一个自然的问题是这些结果如何推广到一个具有连续协变量的解决方案,Xi∈R具有连续协变量,使规划者的优化问题保持有限维,我们将处理分配规则限制为参数函数。对于本节,我们选择了一个logit函数,使δ(Xi;β)=1+e-(β+xiβ)。δ*δxiβ*用β而不是直接用δ来定义规划者的目标函数。β*=arg maxβ∈REβ[yi(wi]θi∈{,}θi=代表总是有负ITE的购买者,θi=1代表不情愿的购买者,zi=rzié正常,θi=正常,θi=1。具有潜在策略性的总是购买者具有效用函数ui(x,δ)=5·δ(x;β)-Ci(x-zi),xi用于接受治疗和报告协变量的成本。根据有关策略行为预测的文献,我们假设个体有一些遗传行为,并且在离Zi的距离内,报告一个di-everent协变量的成本是二次型的(Frankel and Kartik,2020)。这个效用特性导致了一个报告规则xi(δ)=θizi+(1-θi)arg maxx∈Rui(x,δ)。与离散环境一样,Ci∈rui(0,10)和潜在结果是yi(Wi)=5·(0.75θi+(1-θi))Wi+10·(1-θi)(1-Wi).di-everent环境。在治疗规则图下,200个个体1a的位置,我们模拟了一个没有策略的连续协变量的优惠券模型版本。那些θi=0但内在行为Zizi接近于此的人将把他们的行为转移到报告Xi>0,并获得有价值的优惠券。因此,每个代理的利润下降到5.49美元。考虑到图1c中的策略行为,最优logit函数不再是一个cuto hered规则。相反,有一个模糊区域,在该区域中,对那些具有阳性的概率分配低于一个概率。虽然仍有策略行为诱导(有些agent的报告为负),但每个agent的平均收益为5.55美元有所提高。(a)无策略行为的Cuto Herited规则(b)有策略行为的Cuto Herited规则(c)有策略行为报告的最优规则。在分配规则下使用抖动绘制每个个体的报告DXI。对于具有正CATE的群体,在100%的概率下,可以诱导出一个分布,在这个分布中,目标远不如承诺在带有噪声函数评价的更均匀的δ*优化问题中处理个体,并设计一个程序,在不依赖于对战略行为结构的强大假设的情况下恢复最优规则。3估计最优规则离散协变量。

8
能者818 在职认证  发表于 2022-4-20 21:47:42
这些条件包括在responsebehavior中发生的行为变化,如果处理规则没有变化,我们就无法估计最优规则。如果没有策略行为模型,我们可以确定计划者处于一个连续实验的环境中。优化环境:T、..Tnagents到达,对于每个i∈[n]:1,进行第2.2节的Stackelberg对策。试剂响应治疗规则δT,报告行为Xi(δT)2。处理分配,pr(WTI=1)=δt(Xi(δt))3。观察结果,Yti=Yti(Wti).t,.在优惠券的例子中,我们可以考虑在每个时间到达的一批代理,因为代理的决策问题是静态的,所以如果一个代理在一段时间内重复到达,我们可以忽略动态的考虑。在这种环境下,当n增大时,规划者不能直接观察到π(δ),πn(δt)=nnxi=1yti(Wti)的版本,根据中心极限定理,我们得到了πn(πn(δt)-π(δt))→dn(0,σ)。在时间步,规划者观察到πn(δt)=π(δt)+,其中近似正常情况下δt=txt=1π(δ*)-π(δt),δ*∈arg maxδ∈[0,1]dδ只有噪声函数的估计。在不对π(δ)作任何连续性假设的情况下,该优化问题是NP难的。在目标的强凸性假设下,我们可以使用基于函数评价的近似梯度方法,如Flaxmanet al.(2004).δ挑战于验证目标π(δ)上的凸性假设,因为它依赖于战略行为的未知结构。因此,我们做了光滑性假设,但不做凸性假设,所以不使用基于梯度近似的方法。调整到新的规则。因此,我们更喜欢这样一种方法,即找到一个最优规则,并成功地用来找到优化未知非凸函数的超参数,这些超参数的评估成本很高,参见Snoek等人。(2012年)。3.1高斯过程优化δ,其中δ∈[0,1]d来源于一个高斯过程(Williams and Rasmussen,2006),direfned的μ,d→Rk,d×,d→Rof核函数对π有一定的限制,例如,如果核是平方指数核,则假定目标函数在classc∞中。若用方差σ的独立正态噪声赋值的函数具有给定的先验分布,则函数值向量Z=f(Q)的先验分布是多元线性的,即Zq'AN(μ(Q),k(Q,Q)+σi)。给定一组含噪函数,则该函数的后验分布也服从高斯过程:πSnδTST=1SπSTNδTDSδTST=1SDSTKpr(WTI=1XTI=k)。给定一组含噪函数的估计值,得到了μs(δ)=μ(δ)+k(δ,Ds)(∑+σI)(πS-μ(Ds)),ks(δ,δ)=k(δ,δ)-k(δ,Ds)(∑s+σI)k(Ds,δ)的后验分布,其中∑s=k(Ds,Ds)是s×s核矩阵。δT2002;Dani等人,2008年;Srinivas et al.,2009).算法1:gp-ucbinput:先验GP(μ,k)输出:t∈{1的处理规则δt的估计。.T}选择δT=arg maxδ∈[0,1]dμt-1(δ)+√αtkt-1(δ,δ);接收反馈πT=πn(δT);基于贝叶斯更新计算μT、kt;一类核函数的结束αTαTGP-UCB算法。在下一节中,我们使用δ先验的平方,然后是Srinivas等人的结果。(2009)表明遗憾以次线性的速率增长,其中rt=o pt(log T)d+1.4 MTurk Exp eriment,我们使用它来评估算法1。例3。基于偏好的目标函数θi∈{,}数学。计划者希望最优地分配一个空闲的计算器wi∈{,}。结果是一个净收益的度量,考虑到接受者对正ITE的欣赏程度,E[Yi(1)-Yi(0)θi=1]>0。不喜欢数学的人有一个负ITE,E[yi(1)-yi(0)θi=0]<0。

9
可人4 在职认证  发表于 2022-4-20 21:47:49
计划者不能直接观察θi,而是必须根据观察到的一些行为xi∈x,使用函数δ:x→[0,1]来分配设备。所有的人对计算器都有一定的价值,因为即使不使用它也可以出售,所以一些人会采取策略性的行为来增加他们获得计算器的机会,xi=arg maxxUi(x,δ(x))。我们在MTurk上进行了一个简单的实验,捕获了示例3的关键特征,规模为1-5。这测量θi,其中,如果个人报告4或5,则θi=1,如果Xi,则θi=0,并要求被调查者报告函数2x-x=3的任一因素。正确答案是-0.5或3.xi=hif个体的正确回答和xi=lotherwise。xi在调查的两个双波中,每个波中有n=316个观察。我们将这个调查设计映射到例子3中如下:o根据xi分配1美元的奖金治疗。o我们测量θi,但假设计划者没有观察到它。它被用来估算yiasyi=5·θiwi-6·(1-θi)Wi,它衡量喜欢数学的人有一个积极的ITE,不喜欢数学的人有一个消极的It,这构成了调查。在第二波调查中,只有在xi=h的情况下,个人才能获得1美元的奖金。我们的初步结果,如表3所示,显示了响应changesmath的xiShift分布如何以比不喜欢数学的人高得多的速度正确地响应。从第1波到第2波,所有报告xi=h的个体的比例增加了18个百分点,对于那些不喜欢数学的个体,这一比例从29%增加到48%,这进一步证明了xifor靶向的有效性。基于我们假定θi=0θixilis为负,forxi=his为正的ITEs。下一步是引入一个简单的操作结构模型,遵循SWAVE 1(均匀规则)波2(cuto her规则)δ(L)0.00.0δ(H)0.01.0pr(xi=H)0.410.59pr(zi=1)0.430.49pr(xi=hzi=0)0.290.48pr(xi=hzi=1)0.560.71τ(L,δ)-2.47-2.22τ(H,δ)0.5660.495表3:MTurk实验模拟数据的汇总统计,并用算法1计算遗憾。我们假设θiéBernoulli(λ)。个体有他们类型的另外两个组成部分,mié伯努利(ρθi)和Cié均匀(0,bθi),这决定了他们是否对因式分解问题做出反应。如果mi=1λ是由两个调查波中观察到的平均值r(θi=1)确定的,那么代理i有一个报告规则i(δ)=H,如果mi=0L+(H-L)(δ(H)-δ(L)>Ci)。ρθip rxihθibθip rxihθip在两个调查波中。表4.λρρb bestimate 0.46 0.71 0.44 3.737 2.933表4:半合成模拟的参数估计接近一半的代理数学。喜欢数学会影响个人是否正确地回答因式分解问题。θi=1的人更有可能做出反应。在这种设置下,最优规则是δ*(L)=0和δ*(H)=0.644。我们现在可以模拟算法1的执行情况。我们假设该算法是策略行为,但可以从一个样本N=2000个代理观察结果,这些代理对算法1的500个周期做出了反应,平均超过50次重复模拟。图2:算法1的平均遗憾rt/t最优和平均遗憾迅速下降到零。5结论基于观察到的协变量进行了最优分配。这些结果是对现有预测规则的补充,需要新的估计方法。

10
何人来此 在职认证  发表于 2022-4-20 21:47:55
我们提出了一种基于贝叶斯优化的序贯实验,该实验收敛于最优治疗分配函数,未来的工作有多种途径,包括将结果扩展到基于观测数据的更近似的方法,并探索战略行为如何影响单位间干扰的因果环境分析。参考ascarza,营销研究杂志,2018年,55(1),80-98。艾希,苏珊,“出乎意料:将大数据用于政策问题,“科学、2017年,355(6324)、483-485。斯特凡·打赌,《用观察数据学习政策》,2020年。奥尔,彼得,机器学习研究杂志,2002年,3日(11月3日),397-422.球,伊恩,“给战略代理人打分”,就业市场文件,2020.贝尔西马斯,Dimitris和Nathan Kallus,2020年,66(3),1025-1044.巴塔查里亚,Debopam和Pascaline Dupas168-196。Bj"orkegren,丹尼尔和达雷尔·格里森预测信用还款,“2019年。,约书亚·布卢门斯托克,和Samsun Knight,“防操纵机器学习”,arXiv预印本arXiv:2004.03865,2020.布朗,加文,什洛米·霍德,和Iden Kalemaj,《状态世界中的绩效预测》,arXiv预印本arXiv:2011.03885,2020.朱丹、瓦沙,托马斯·P·海斯,和Sham M Kakade,强盗反馈下的随机线性优化〉,2008,Der Weele,泰勒·J·范,亚历克斯·R·卢德克,马克·J·范德兰,和罗纳德·凯斯勒,“使用许多协变量选择治疗的最佳亚组”,《流行病学》(剑桥,弥撒。),2019年,30(3),334.董某、金硕,亚伦·罗斯,扎卡里·舒茨曼,波·瓦格纳,以及2018年ACM经济与计算大会“2018,第55-70页。弗拉克斯曼,亚伯拉罕·D,亚当·陶曼·卡莱、和H Brendan McMahan,“OnlinePreprint CS/0408007,2004.弗兰克尔,亚历克斯和纳文·卡提克,“从可操作的数据中改进信息”,arXivpreprint arxiv:1908.10330,2020.格莱泽,爱德华·L,安德鲁·希利斯,斯科特·杜克·科米纳斯,和Michael LucaAmerican经济评论,2016年,106(5),114-18.哈特,莫里茨,尼姆罗德·梅吉多,克里斯托斯·帕帕季米特里乌,和玛丽·伍特斯的“战略分类”,在2016年“ACM理论计算机科学创新会议论文集”中,第111-122页。Heckman,James J和Edward Vytlacil,“结构方程,治疗E型刺五加,和计量经济学政策评价1,“计量经济学,2005年,73(3),669-738.平野,Keisuke和Jack R PorterEconometrica,2009,77(5),1683-1701.Imbens,Guido W和Joshua D AngristAverage Terrance e-Econometrica,1994,62(2),467-475.Izzo,Zachary,Lexing Ying,和James Zou,“当数据对你的模型做出反应时如何学习:绩效梯度下降”,载于“机器学习国际会议”PMLR 2021,第4641-4650页.Kallus,Nathan和Angela Zhou,“未观察混杂下的极小极大-最优政策学习”管理科学,2020.Kitagawa,Toru和Aleksey Tetenovmaximization methods for 72(4),1221-1246。米勒,约翰·P,胡安·C·佩尔多莫,和蒂亚娜·兹尼克姆勒,2021,第7710-7720页。米勒,约翰,史密斯·米利,和莫里茨·哈特PP。6917-6926.Munro,Evan,Stefan Wager和Kuang Xurium,“arXiv预印本arXiv:2109.11647,2021。Perdomo,Juan,Tijana Zrnic,Celestine Mendler-Dünner和Moritz Hardt”performative prediction“,载于”机器学习国际会议“PMLR 2020,pps.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:00