|
请注意,当制造商的库存达到下限/上限时,他不应在每个决策阶段有任何未完成的买卖订单,因为否则,由于可能执行这些未完成订单,库存可能会超过两个界限。因此,状态空间如下所示。S:={(w,p,q,r+,r-) : (w、p、q)∈ Z、 (r+,r-) ∈ Z×Z,q≤ q≤ q、 r±≥ 0,如果q=q,则r+=∞, 如果q=q,那么r-= ∞}.接下来,我们描述容许作用空间。制造商可以发送市场订单、限制订单或不发送任何订单。对于每个时期,当做市商收到系统状态s=(w,p,q,r+,r-), 我们使用一对(δ+,δ-) 表示制造商的动作,其中δ+,δ-∈ Z∪ {o} 。δ+∈ Z表示制造商以P+0.5+δ+的价格报价ask订单,即δ+是与最佳ask价格相比的相对价格,以及取消其先前ask未完成订单的指示。δ+= ∞ 表示制造商取消其ask未完成订单,但不发送任何新的ask订单。δ+= -∞ 也就是说,制造商发送了一份带ask取消指令的卖出市场订单。δ+=o表示制造者不为提问方做任何事。δ+=∞ δ+=o是指制造商是否发送取消指令,要求取消订单。投标方也是如此。具体而言,δ-∈ Z表示制造商以p价报价- 0.5- δ-. δ-= ∞ 意味着没有购买订单,但发出了取消出价指令。我们对离散时间状态使用基本连续时间状态过程的左极限,这是连续时间随机控制文献中的惯例。和δ-= -∞ 指取消投标的买方市场订单。
|