|
形式上,让Pλ=eAλ表示一个时间单位后的转移概率,让πλ表示P的不变量分布,即πλ解特征值问题Pπλ=πλ。然后,我们选择λ,使得πλ=Φu,σv(1)+v(2)- Φu,σ五(1)+五(1)-五(2)- 五(1), (29a)πλ=Φu,σ(v(i+1)+v(i))- Φu,σ(v(i)+v(i)-1)), i=2,2L,(29b)πλm=Φu,σv(m)+v(m)+v(m)- v(m-1)- Φu,σ(v(m)+v(m-1)), (29c)其中Φu,σ(·)表示具有平均u和方差σ的正态分布的正常累积密度。请注意,Φu,σ是在可能储量之间的中点进行计算的,我们通过线性外推获得边缘状态的方程。4.2. 校准学习函数随着时间的推移,代理收集有关储备商品数量的更多和更好的质量信息。因此,预计储量中估计体积的方差将在一定时间内从σ减小到σT<σ。具体σT=V【θ| FT】。(30)该参数以及初始储量估计方差σ是学习函数的主要决定因素。为了节约,我们假设代理的学习函数的形式为ht=a e-b t对于某些a,b>0,其中参数a表示马尔可夫链状态之间的初始转移率,即h=a,因此反映了储量初始估计的不确定性。学习参数b表示代理学习的速率–b越大(或越小),学习过程越快,因为b的大(或小)值会使过渡速率随着时间的推移衰减得更快(或更慢),因此储量估计值很快(或更慢)变得稳定。
|