为简单起见,在许多情况下都假定时间均匀。3.1.4奖励功能根据系统状态和从该状态采取的相应行动,每个过渡都会产生奖励(或扣除一些可被视为负面奖励的成本)。奖励函数由rt(A,i,j)表示,其中在动作A下的时间t发生从状态i到状态j的转变。rewardis一词指的是患者在接受癌症治疗后是否有能力过上正常的生活方式。在下一节讨论一个基于模拟的例子时,我们将解释一类奖励函数的结果,并对此进行论证。当系统在时间t处于状态s时,通过对转换状态的概率分布进行期望,即isrt(s,a)=E[rt(a,s,s)]=Xs,奖励函数被视为增益∈SRT(A,S,S)PT(S S,A)(3),我们认为报酬函数依赖于代表相应学科的经济或地理背景的某些参数。尽管控制奖励的其他变量是固定的,但对于属于不同地理区域、社会经济地位不同的人来说,可能具有不同的奖励功能。例如,[58]说明了癌症诊断如何对受影响的成年人及其家庭的经济福祉产生重大影响,而根据[44],由于人口的遗传因素或气候因素,两个不同的地理区域的人可能不会面临相同的癌症风险。3.1.5决策规则和策略在决策理论中,非随机决策规则是从样本空间到行动空间的函数,即对于决策规则d,样本空间X和行动空间a,d:X 7→ A.