楼主: 可人4
939 10

[经济学] 自适应组合分配 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-4-16 11:30:46
(A6)o数据处理不等式:对于ra ndom变量或向量F的任意变换g(F),I(a;g(F))≤I(a;F)。(A7)o互信息链规则:I(A;(F,G))=I(A;F)+I(A;GF)。(A8)B证明为了便于参考,我们通过重述我们的记号和假设,Yt,θ,at∈Rjoutput,参数,和作用向量sat∈A{A∈{0,1}j:KAK=M}可行分配和批sizeyjt∈[0,1]有界结果θ=et[Ytθ]参数A对结果的期望θt=et[θ]=et[Yt]参数的先验期望(at t)R(A)=et[ha,ytiθ]=ha,θi线性(组合)期望回报syt(A)=(aj·yjt:j=1,)。.....J)可观测结果(半强盗)autiti)a=argmaxa∈ar(a)=argmaxa∈Aha,参数的条件期望spt=et[a*]对于Thompson抽样,我们有与a*相同的结论,然后我们证明了三个初步的y引理,引理1(通过分量信息限制遗憾)。Et[R(A*)-R(At)]≤VuutJ·JXJ=1PJT·DKLθ*JT,θJT。引理1的证明:Et[R(A*)-R(At)]=ET[Ha*-At,θi](B1)=hpt,θ*i-hpt,θti(B2)≤vuutj·jxj=1pjt·“θ*jt-”θjt(B3)≤vuutj·jxj=1pjt·dkl“θ*jt,θjt(B4)这些步骤符合以下原因。(B1)通过分解内积,并使用(i)迭代运算,依次对每个分量j以autj=1为条件,以及(ii)Atandθt的独立性和汤普森抽样的确认。(B3)由Cauchy Schwarz(对于j向量为1s的内积)。(B4)由Pinsker不等式,应用于Bernoulli ra ndom变量,引理2(散度和分量信息增益)。pjt·dklθ*jt,θjt≤It(a*j;引理2的证明:为了这个证明的目的,cons truct a Bernoulli rando m与期望Yjt无关。注意,et[eYjt]=\\\\jt.dkl\\\\\\jt,\\\\jt可以解释为a\\j=1条件下的分布Ofeyjt和(无条件)分布Ofeyjt之间的kl-散度。将期望超过a\\j=1条件下的分布Ofeyjt和(无条件的)分布Ofeyjt之间的kl-散度得到a\\jandeyjt之间的相互信息,It(ajj;eYjt):It(ajj;eYjt)=pjt·dkl et[θjta\\j=1]θjt+(1-pjt)·dkl et[θjta\\j=0],θjt\\,(B5)和thuspjt·dkl\\\\jt;θjt\\\\pjt·It(a\\j;eYjt)(B6)≤pjt·It(a\\j;Yjt)(B7)=It(a*j;Ajt·Yjt,Ajt)(B8)≤It(a*j;(B9)这些步骤有以下原因:(B6)因为E方程(B5)中的第二项是非负的。(B7)由da ta-处理不等式,应用于来自Yjttoeyjt的映射。(B8)由迭代期望定律,应用于它(a*j;Ajt·Yjt,Ajt),对Ajt的分布进行平均(在Thompson抽样下)。(B9)再次由da ta处理不等式。引理3(对分量信息之和进行界)。txt=1jxj=1it(A*j;引理3:txt=1jxj=1it(A*j;Yt(At),At)=jxj=1i(A*j;(Yt(At),At:t=1,。.....T))(B10)≤jxj=1h(a*J)(B11)=-jxj=1[pj,1log(pj,1)+(1-pj,1)log(1-pj,1)](B12)≤J·mjlog jm.+j-mj,1)log(1-pj,1)](B12)≤J·mjlog jj-m(B13)≤M·llog jm.+1(B14)这些步骤有以下原因:(B10)互信息的链式规则(B11)互信息的归约形式和(条件)熵的无n-负性(B12)对a*J(B13)jensen的熵的认识不等式。(B14)当x=M/(d-m)时,不等式log(1+x)≤x。定理1的证明:e“txt=1(r(aut)-r(At))#=e”txt=1et[r(aut)-R(At)]#(B15)≤e txt=1vuutjjxj=1it(autj;Yt(At),At)(B16)≤vuuutjt e txt=1jxj=1it(autj;Yt(At),At)(B17)≤rjt M·log jm+1(B18)这些步骤有以下原因:(B15)迭代期望定律(B16)引理1。(B17)T向量为1s的内积的Cauchy-Schwarz引理3。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 02:14