楼主: 何人来此
1719 33

[经济学] 利用马尔可夫决策过程寻找最佳癌症治疗方案 [推广有奖]

11
能者818 在职认证  发表于 2022-4-24 17:08:11
一般来说,这个过程可能是任何依赖于历史的随机过程,但为了便于计算,我们的模型将坚持马尔可夫假设。3.1手头的问题考虑一个疗程为T和s的受试者寻求最佳治疗决策。这里的最优决策指的是最大化预期回报值的决策。以下是模型的不同组成部分:3.1.1状态空间(癌症阶段)对于一种特殊类型的癌症,我们将恶性肿瘤分为标准杆数S、···Sn},并将其视为状态空间S。如果我们考虑一种以上的癌症,那么每个状态可以由S(j)I表示,其中i=1,···N;3.1.2行动空间(可能的治疗方法)行动空间是指当系统在给定时间处于特定状态时,将要执行的一组行动,可能取决于时间,也可能不取决于时间。为了减少计算复杂度,在这个模型中,我们将考虑动作空间是时间均一的,即当患者处于某一状态时,治疗方式不依赖于观察的时间点,它只依赖于相应的状态。因此,当系统在时间t时处于状态S时,动作集合为AS,t= AS。动作空间由以下公式给出:A=∪s∈SAs3。1.3转移概率当系统处于状态i,并且在时间t采取行动a后,转移到状态j,转移概率表示为:pt(j | i,a)=P(Xt=j | Xt-1=i,at=a)(2)转移概率是一个时间相关函数,即在相同的作用和相同的转移下,不同时间点的概率可能不同。

12
kedemingshi 在职认证  发表于 2022-4-24 17:08:18
为简单起见,在许多情况下都假定时间均匀。3.1.4奖励功能根据系统状态和从该状态采取的相应行动,每个过渡都会产生奖励(或扣除一些可被视为负面奖励的成本)。奖励函数由rt(A,i,j)表示,其中在动作A下的时间t发生从状态i到状态j的转变。rewardis一词指的是患者在接受癌症治疗后是否有能力过上正常的生活方式。在下一节讨论一个基于模拟的例子时,我们将解释一类奖励函数的结果,并对此进行论证。当系统在时间t处于状态s时,通过对转换状态的概率分布进行期望,即isrt(s,a)=E[rt(a,s,s)]=Xs,奖励函数被视为增益∈SRT(A,S,S)PT(S S,A)(3),我们认为报酬函数依赖于代表相应学科的经济或地理背景的某些参数。尽管控制奖励的其他变量是固定的,但对于属于不同地理区域、社会经济地位不同的人来说,可能具有不同的奖励功能。例如,[58]说明了癌症诊断如何对受影响的成年人及其家庭的经济福祉产生重大影响,而根据[44],由于人口的遗传因素或气候因素,两个不同的地理区域的人可能不会面临相同的癌症风险。3.1.5决策规则和策略在决策理论中,非随机决策规则是从样本空间到行动空间的函数,即对于决策规则d,样本空间X和行动空间a,d:X 7→ A.

13
kedemingshi 在职认证  发表于 2022-4-24 17:08:24
随机决策规则δ是一组非随机决策规则D上的概率分布,即δ∈ P(D)。参考我们提出的模型,决策规则是从状态空间到动作空间i的函数。e、 决策规则将系统的状态作为输入,并决定要采取的操作。我们将我们的模型与一类确定性决策规则相关联,即在时间t,决策规则dt:s7→ A.我们模型的马尔可夫历史确保时间t的决策仅取决于当前时间和状态,而不考虑之前的状态链和行为,即规则独立于历史。Apolicyπ定义为时间点上的决策规则集合,即π=(d,d,·,dT)-1) .3.2优化目标在该模型中,奖励函数的效用本质上是可加的。因此,我们将ψ(r,·,rT)=PTi=1riLet∏作为所有策略的空间。主要目标是确定政策π*= (d)*, · · · , D*T-1) 使奖励的预期效用最大化(假设存在这样的政策)。

14
能者818 在职认证  发表于 2022-4-24 17:08:30
在策略π和初始状态s下,到达视界T的预期总效用为:vπT(s)=Eπs“T-1Xt=1rt(st,dt(st))+rT(st)#(4)我们寻求一个策略π*使癌症患者的预期效用最大化,使vπ*T(s)≥ vπT(s)s∈ S、 π∈ 为了寻找这样一种策略,我们对在算法的每一步中获得的一组报酬方程(也称为贝尔曼最优性方程)应用反向归纳算法。算法1:反向归纳算法(马尔可夫设置)结果:最优策略集t=N;计算u*N(sN)=所有序列号的rN(sN)∈ s如果t=1,则停止;埃尔塞特← T- 1.圣∈ S计算ut(st,a)=rt(st,a)+Pj∈Spt(j|st,a)u*t+1(j)表示所有a∈ 阿斯图*t(st)=maxa∈阿斯图特(st,a),a*st,t=arg maxa∈阿斯图特(圣,阿)继续;end4模型公式:用于估计参数的统计模型。到目前为止,我们介绍的模型和方法没有考虑患者手部的特征。尽管一些因素可能因影响奖励功能而被包括在内(例如,个体的体重没有直接考虑在内,但可能有助于患者的整体最终健康,这可能对最终的奖励功能感兴趣);可能存在一些因素,虽然不会直接影响奖励功能,但在做出决策时可能会起到重要作用。所以我们引入了这些变量,它们不会影响奖励函数,但会影响转换的结果。因此,在本节中,我们介绍了协变量的概念,并打算扩展模型,考虑到患者拥有的协变量实现。一般来说,协变量是独立变量,在基础模型中作为观察值/测量值起作用,可以被视为控制变量。

15
nandehutu2022 在职认证  发表于 2022-4-24 17:08:37
我们提出了两个在程序中使用它们的想法。4.1非自适应方法:固定的协变量和不变的状态空间给定时间t的状态站作用,我们使用了所有s的概率pt(s | st,at)∈ 通过直接从数据中进行估计。然而,不考虑患者的协变量特性会导致在状态统计时间t(应用ataction)从患者群体中随机选择患者的估计转移概率。现在,我们使用比例赔率累积Logit模型,由McCulagh推广[33]。使用该模型的基本原理是,按照定义状态的方式,状态具有固有的严重性顺序。设p个协变量X,Xp。假设这些协变量是固定的数量,并且对每个个体都不同。但对于固定患者,协变量的值是给定的,即卵巢的数据不是随机量。假设我们在时间t。如果我们有n个个体,即n个处于状态的患者,应用于他们,数据由{Xij:1给出≤ 我≤ p、 一,≤ J≤ n} 。数据矩阵(或设计矩阵)由X=((Xij))1给出≤我≤p、 一,≤J≤n、 设| S |=J,也就是说,对于状态变量,我们有许多类别,它们本质上是有序的。我们的目标是确定有多少物品属于KTH类别或以下1≤ K≤ J.模型为:log“π(t,st,at)+··+π(t,st,at)Jπ(t,st,at)J+1+··+π(t,st,at)J#=α(t,st,at)J+β(t,st,at)x+·+β(t,st,at)pxp(5),其中,J∈ {1,··,J- 1} ,π(t,st,at)j=P(st+1=j | st,at,x),x=(x,···,xp)>该模型也可以写成:logit(P(st+1≤ j | st,at,x))=α(t,st,at)j+β(t,st,at)x+··+β(t,st,at)pxp(6)我们将继续我们的讨论,假设这个模型,但是,这个框架可以用于概率的任何模型。请注意,β系数不随j而变化。

16
mingdashike22 在职认证  发表于 2022-4-24 17:08:44
这通常被认为是一种限制性的假设,人们希望废除这种假设。Peterson和Harell[43]在这方面讨论了部分比例模型。Ari和Yildiz[17]对模型的平行线假设进行了讨论,而Ananth和Kleinbaum[4]对本文使用的有序响应变量的几种模型进行了全面的回顾。参数的估计可以通过最大似然估计和Fisher的排序方法来完成。需要注意的是,代替比例优势累积logit模型,可以使用多项式logit模型,但可能存在两个问题:(1)在多项式logit模型中,对于每个状态j(j<j)和给定(t,st,at),有(p+1)个参数需要估计,因此参数总数为JT(j)-1) (p+1)|A |如果我们有J,T,|A |,p中的任何一个,它可能会很大,因此可能会出现一些关于维度诅咒的问题。为了解决这些问题,我们可以采用一些简单的假设,例如参数是时间齐次的,我们使用比例赔率累积logitmodel。因此,参数的数量归结为Jp | A |+J(J- 1) |A |=J(p+J)- 1) | A |小于多项式logit模型中的参数数。通常会使用更复杂的估计方法,例如Mukherjee等人[36]讨论了一种方法,通过理论尺度的二元分解,并合并由此产生的条件似然度。然而,我们不会离题讨论更复杂的方法,因为我们的目标是研究最佳的行动方案。4.2自适应方法:随机协变量和修正状态空间在这里,我们允许协变量随时间改变其值。再次假设有p个协变量X,···,Xp,每个协变量都可以从联合分布F中取值。

17
能者818 在职认证  发表于 2022-4-24 17:08:50
现在假设样本空间Ohm 其中F是有限的,比如m阶,mp阶,每个单元都有一定的发生概率(可能为零)。我们对患者群体(而不是一般人群)进行了分析。我们将状态空间修改为/S=S×Ohm, 现在是|S |×|Ohm|.现在我们允许S中的转换从状态i开始∈ S和协变量曲线x∈ Ohm 陈述j∈ S和协变量∈ Ohm, 其概率可直接从数据中估算。这个新马尔可夫链的奖励函数是这样的,它仍然与我们原来的奖励函数相关。由于我们在给定初始和最终状态的两个协变量之间是不同的,因此我们采用了对协变量不变的逐步奖励函数,即,Ts、 j∈ s在∈ As,rt(s,at,j,x)=rt(s,at,j)十、∈ Ohm最终的回报也会与患者最终到达的协变量无关,只要是相同的∈ 有了这些状态空间和转移矩阵,我们使用反向归纳法和Bellman方程的相同过程,我们得到了每个S的最佳作用∈ 请注意,虽然奖励函数保持不变,但转移的概率会随着协变量的信息而更新,因此,最佳行动可能会根据协变量的知识而改变。4.3两种方法的比较两种方法各有优缺点。第一个比较是在协变量是随机的哲学中,频率分析法和贝叶斯方法。然而,从实践的角度来看,除了哲学之间的争论之外,还有一些技术问题值得怀疑。第一种方法允许x是任何东西,也就是说,它不限制其样本空间是有限的。

18
何人来此 在职认证  发表于 2022-4-24 17:08:56
因此,它采用了一种模型假设,并给出了β的估计值,从中可以估计任何协变量变量x的概率,而不仅仅是观察到的x。然而,第二种方法没有对概率模型进行任何假设。但它不允许协变量文件x的所有值,因为其样本空间被限制为有限的。否则,状态空间将变得有限(并且可能不可数),这就需要闭合集和对奖励函数的假设,以使上确界可实现,并通过贝尔曼方程获得最佳行动。因此,这种方法失去了其固有的简单性。第一种方法在行为上不适应协变量,因为它的唯一输入是患者首次诊断时的协变量。但第二种方法允许卵巢功能在治疗期间发生变化,这是治疗经常需要的特征。然而,通常有一些协变量是自然不能随时间变化的(比如人的遗传特征),如果允许它发生变化,尽管它不能,可能会使模型变得不必要的麻烦和易处理性。作为说明,我们想指出的是,如果在开始阶段需要准确的协变量值,如首次诊断时患者的体重,那么第一种方法更方便,而如果“超重”、“正常体重”和“体重不足”等信息足够,但它们随时间的变化很重要,人们可以采用第二种方法。5.模拟急性髓系白血病(AML)是一种白血病(血癌),是一种克隆性造血干细胞疾病,在这种疾病中,干细胞室中增殖增加和分化失败导致称为成髓细胞的非功能性未成熟细胞的聚集。

19
nandehutu2022 在职认证  发表于 2022-4-24 17:09:02
AML约占所有白血病的25%,是成人中最常见的急性白血病[15]。在过去的几十年里,AML患者的治疗和支持性护理有所改善。然而,尽管现代诱导化疗取得了很高的完全缓解率,但达到完全缓解的患者的总体生存率仅为50%左右,或总体生存率为26%[1]。在这个基于模拟的例子中,我们考虑了一个500名AML受试者的例子,其中的测量包括每个患者的年龄(证据见[22])、收缩压、她/他的放射性暴露指标(这可能由该个体是否经历了大于伦琴某个值的暴露量的信息来确定),一些控制激素(如甲状腺素)的水平和标记基因(如CD34+和CD38-)的存在。关于这些变量的信息被视为协变量,并已使用第4节的方法来估计状态转移概率。我们为训练模型而模拟的协变量结构如下:年龄~ N(50,3)血压~ N(年龄+60,0.7){放射性暴露}~ 伯努利(0.1)激素水平~ N(700,20)收入(θ)~ 10000+10×帕累托(100,10)我们考虑了两种治疗方式:1。观察监测或患者病情缓解,以及2。化疗治疗。对于白血病患者来说,第二种疗法的一个问题是化疗会损害骨髓,从而减少血细胞的数量。出于这个原因,医生们总是建议在治疗期间先进行化疗,然后再进行休息。

20
何人来此 在职认证  发表于 2022-4-24 17:09:08
此外,我们认为状态空间由3个状态所标记,1, 2个和3个状态代表恶性程度越来越严重的二级恶性肿瘤。在这种情况下,治疗程序的范围被认为是N=8。然后,如果受试者在第j个时间点处于第j状态,则动作矩阵包含(i,j)作为受试者要采取的最佳治疗动作。在这里,我们认为当主体在水平面观察时不采取任何行动,因此作用矩阵A的维数是(n)。- 1) x S.对于固定的i和j,a的(i,j)尝试可以用协变量Xk建模,以量化Aijt对Xk微小变化的敏感性。在实际情况下,协变量Xkmight具有特定(已知)分布,并且取决于Aij的敏感性可能会受到显著影响,或者根本不受影响。对于固定的Xk值,我们对Aijas进行建模:πkij(x)=P(Aij=1 | Xk=x)。我们使用逐步奖励函数如下:rt(i,j,a)=g(i)- j) (t+1)-Caθ·e-λt其中CAI是与行动a相关的成本(如果行动a是减免,则成本为0),θ是个人的收入,λ是因个人财务状况较高而考虑的报酬衰减的常数参数。我们设定λ=1.2,C=5000。其他用于解释奖励函数地理因素的参数g(逐步和最终)被设置为g=0.7。可以解释为,奖励函数的第一项是状态转换的结果,而第二项则是在时间t采取的行动以及患者财务状况的影响。最终奖励函数由(第4节定义的| S |=J)rN(J)=g(J)给出- j) (N+1)在这种情况下,j=3。利用比例优势累积logit模型,我们估计πkij(x)为^πkij(x)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-5 11:36