|
在这种情况下,如果我们写eu(n,I,S)=I+v(n,S),那么贝尔曼方程(A.2)可以简化为:v(n,S)- v(n)- 1,S)+maxbn∈[0,S]Zbn(v(n,S)- p)- v(n,S)+1)f(p)dp=0,终端条件为v(n,S)=0。这个离散时间模型有助于理解我们使用的通用建模框架,但它是有限的。首先,在实践中,拍卖在随机时间到达,我们不知道算法将收到多少拍卖请求。此外,对于不同拍卖请求来源必须并行处理的问题,上述离散建模方法并不方便。连续时间模型,其中拍卖请求的(随机)发生由泊松过程的跳跃建模,更真实、更灵活。参考文献[1]Amin,K.,Kearns,M.,Key,P.,和Schwaighofer,A.(2012)。赞助搜索的预算优化:MDP中的删失学习。arXiv预印本arXiv:1210.4847。[2] 阿维拉内达,M.,和斯托伊科夫,S.(2008)。在限价指令簿中进行高频交易。定量金融,8(3),217-224。[3] 巴尔塞罗和坎多安(2015)。在线广告中介的最优合约。可通过SSRN 2546609获得。[4] 巴尔塞罗,S.R.,费尔德曼,J.,米罗科尼,V.,和穆图克里希南,S.(2014)。利用广告交换优化展示广告的收益率。《管理科学》,60(12),2886-2907。[5] Barles,G.,和Imbert,C.(2008)。二阶椭圆型积分微分方程:粘度解的理论重温。在《国际卫生规划手册》中,25(3),567-585。[6] Cannarsa,P.,和Sinestari,C.(2004年)。函数,哈密顿-雅可比方程和最优控制(第58卷)。斯普林格科学与商业媒体。[7] Engelbrecht Wiggans,R.(1993年)。重新审视最优拍卖。游戏与经济行为,5(2),227-239。[8] 埃文斯,L.C.(1999)。偏微分方程。
|