楼主: mingdashike22
1159 22

[量化金融] 面向营销的逆向强化学习 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-2 18:30:46
如下所示,该积分可通过适当选择的分布π(在| qt,dt)进行解析计算。为此,我们建议使用混合离散连续分布作为参考(“先验”)作用分布π(at | qt,dt):π(at | qt,dt)=νδ(at)+(1- ν)~π(在| qt,dt)Iat>0(6),其中δ(x)表示狄拉克δ函数,如果x>0,则Ix>0=1,否则为零。连续分量|π(at | qt,dt)由拼接高斯分布|π(at | qt,dt)给出=(1 - ω(qt,dt))φat,u+γdtβ,β如果0<at≤ qtω(qt,dt)φat,u+γdt-ηpβ,β如果在≥ qt(7)此外,参考分布可以适应估计的路径分布,正如参考文献[9]中的引导成本搜索算法所做的那样。其中φ(at,u,σ)和φ(at,u,σ)是两个截短正态分布的概率密度函数,分别针对小型和大型日消费水平定义,0≤在≤ qtand at≥ qt分别为(特别是,它们都是单独归一化的toone)。混合参数0≤ ω(qt,dt)≤ 1由at=qt时的连续性条件确定:(1- ω(qt,dt))φqt,u+γdtβ,β= ω(qt,dt)φqt,u+γdt- ηpβ,β(8) 由于此匹配条件可能涉及较大的qt值,其中正态分布将以指数形式较小,因此在实践中,最好通过取两侧的对数来使用它:ω(qt,dt)=1+expnlogφqt,u+γdt-ηpβ,β- 对数φqt,u+γdtβ,βo(9)“先前”混合拼接分布(6)虽然以简单分布的形式表示,但会导致潜在的相当复杂的动力学,具有直观的意义,并且似乎与观察到的消费模式一致。特别注意,式(7)表明>qt处的大波动集中在较小的平均值u周围-γdt-ηpβ大于平均值u-较小流体的γdtβ0<at≤ qt。

12
kedemingshi 在职认证  发表于 2022-6-2 18:30:49
在当前环境下,突破剩余津贴壁垒后平均值的降低和每个成分的平均值随时间的降低都是非常直观的。

13
mingdashike22 在职认证  发表于 2022-6-2 18:30:52
正如下图所示,“后验”分布π(at | qt,dt)继承了这些特性,同时也进一步丰富了动力学的潜在复杂性。使用混合拼接参考分布(6)作为参考分布π(at | qt,dt)的优点是,可以使用以下选项精确计算依赖于状态的归一化常数Zθ(qt,dt):Zθ(qt,dt)=νeκqt+(1- ν)(I(θ,qt,dt)+I(θ,qt,dt))(10),其中I(θ,qt,dt)=(1- ω(qt,dt))sββ+βexp(u+u+(γ+γ)dt)2(β+β)-(u+γdt)2β×N-u+u+(γ+γ)dt-(β+β)qt√β+β- N-u+u+(γ+γ)dt√β+βN-u+γdt-βqt√β- N-u+γdt√βI(θ,qt,dt)=ω(qt,dt)sββ+βexp(u+ u - (η+η)p+(γ+γ)dt)2(β+β)(11)-(u- ηp+γdt)2β+ηpqt×1 - N-u+u-(η+η)p+(γ+γ)dt-(β+β)qt√β+β1.- N-u-ηp+γdt-βqt√β特别是,它将静态混合系数ν提升为状态和时间相关变量νt=ν(qt,dt)。其中,N(x)是累积正态概率分布。T步路径的概率τi={ait,qit,dit}Tt=0(其中i枚举不同的用户路径)作为单步概率的乘积获得:P(τi)=Y(at,qt,dt)∈τiπ(at | qt,dt)Zθ(qt,dt)exp(φ(at,qt,dt))~ 经验值Φ(τi)(at,qt,dt)(12) 这里Φ(τi)(at,qt,dt)=nΦ(τi)k(at,qt,dt)oK-1k=0是沿观察路径的累积特征计数τi:Φ(τi)k(at,qt,dt)=X(at,qt,dt)∈τiΦk(at,qt,dt)(13)因此,在我们的模型中,总路径概率在沿总回报轨迹上是指数的,正如“经典”MaxEnt IRL方法[5]中所述,而指数前因子的计算方式不同,因为我们使用的是一步,而不是路径概率。定义指数路径概率分布的参数(12)可通过标准最大似然估计(MLE)方法进行估计。假设我们有N条历史上观察到的单周期消耗路径,并假设这些路径概率是独立的。

14
大多数88 在职认证  发表于 2022-6-2 18:30:56
观察这些数据的总可能性isL(θ)=NYi=1Y(at,qt,dt)∈τiπ(at | qt,dt)Zθ(qt,dt)exp(ΘΦ(at,qt,dt))(14)因此,在省略不依赖于Θ的对数π(at | qt,dt)项并按1/N重缩放后,负对数似然为,-Nlog L(θ)=NNXi=1X(qt,dt)∈τilog Zθ(qt,dt)-X(at、qt、dt)∈τiΘΦ(at,qt,dt)=NNXi=1X(qt,dt)∈τilog Zθ(qt,dt)- Φ(τi)(at,qt,dt)(15) 给定最佳参数θ(0)k的初始猜测,我们还可以考虑负对数似然的正则化:-Nlog L(θ)=NNXi=1X(qt,dt)∈τilog Zθ(qt,dt)- Φ(τi)(at,qt,dt)+ λ||θ - θ(0)| | q(16)可以考虑一个更复杂的情况,即个人客户奖励之间的相互依赖关系,但我们在此不采用这种方法。请注意,该规范正式启用了单个客户级别的校准,在这种情况下,N将等于该用户观察到的消耗周期数。然而,在实践中,单一名称校准的可行性取决于最大似然估计的有限样本属性,这将在第节中讨论。注意,Zθ(qt,dt)仍然取决于π(在| qt,dt),见等式(5)。其中λ是正则化参数,q=1或q=2分别代表L-范数和L-范数。当MLE估计(14)被aBayesian最大后验概率(MAP)估计所取代时,正则化项也可以被贝叶斯解释为θk上先验分布的贡献。众所周知,像(12)这样的指数模型会产生凸负对数似然函数,因此我们的最终目标函数(16)在参数Θ上是凸的(也可以通过直接计算验证),因此对于θ(0)和λ的任何值都有唯一的解。

15
何人来此 在职认证  发表于 2022-6-2 18:30:59
这确保了校准程序的稳定性,以及单个客户之间或客户组之间的估计模型参数Θ的平稳演变。2.4计算方面正则化负对数似然函数(16)可以使用许多凸优化算法最小化。如果λ=0(即不使用正则化)或q=2,则目标函数是可微分的,基于梯度的方法可用于校准参数θk。当λ>0且使用L正则化时,目标函数在零处是不可微分的,这可以通过使用L-BFGS算法的Orhant-Wise变体来解决,如参考文献[8]所示。2.5不同支付方案的可能扩展到目前为止,我们假设一个定价方案,其中客户在月初支付预付款Fjin,初始配额为q0j,,并且在月底之前用完配额后,为消费单位支付固定价格p。在实践中,此类定价方案可能存在许多修改。首先,一些服务提供商可能不允许超出配额q的额外消费,因此违反配额q的客户只能获得最低要求的服务级别,例如低速访问。如上所述,可以在我们的框架内通过采取限制p→ ∞ 在上述公式中。其他服务/定价方案需要对模型进行进一步调整。特别是,除了“主要”月度计划外,一旦月度配额用完,客户还可以获得不同的计划调整和延期。这可以在我们的框架中通过使状态动力学完全随机而不是像以前那样局部确定来处理:qt+1=(qt+qe- at)+其中qe是一个额外配额,可以按成本C(qe)添加到计划中。

16
kedemingshi 在职认证  发表于 2022-6-2 18:31:02
由于这种不规则调整可能只在一个月内进行几天(或零天),因此Qe在一个月内的大多数天都等于零,因此可以再次建模为零的delta函数和离散(或连续,取决于服务提供商提供的选项范围)分布的混合。此分布的混合权重可以取决于当前剩余配额qt、付款期结束前的剩余天数dt,以及可能的其他一些其他因素。同时,需要通过减去附加项ηC(qe)来调整奖励函数(1):r(at,qt,dt,qe)=uat-βat+γatdt- ηp(at- qt- qe)++κ(qt+qe)Iat=0- ηC(qe)虽然模型的这种扩展是可能的,但我们将其留给未来的研究,并在下面的数值实验中集中于上述基本设置。3反事实模拟3.1行动概率使用公式(15)或(16)的MLE方法估计模型参数Θ后,假设用户采用不同的前期溢价Fj、价格pj和初始配额qj(0)的计划,则该模型可用于总用户奖励的反事实模拟。为此,请注意,给定每日消耗量At和之前的值qt-1,dt-1,下一个值是确定性的:qt=(qt-1.- at)+,dt=dt-1.- 因此,在我们的模型中,路径概率仅由行动概率和不同行动的概率密度来定义≥ 可从一步概率(τ)中获得时间t的0~ exp(r(at,qt,dt))。

17
nandehutu2022 在职认证  发表于 2022-6-2 18:31:05
使用等式。(1) 和(4),这给出:π(at | qt,dt)=π(at | qt,dt)Zθ(qt,dt)expuat-βat+γatdt- ηp(at- qt)++κqtIat=0(17) 利用式(6)给出的混合离散连续先验分布π(at | qt,dt)的显式形式,我们可以用相同的形式表示“后”分布π(at | qt,dt):π(at | qt,dt)=νtδ(at)+(1- 当混合物重量变得与状态和时间相关时,则:νt=|exp{κqt}Zθ(qt,dt)=νexp{κqt}eκqt+(1- ν)(I(θ,qt,dt)+I(θ,qt,dt))(19)(这里我们使用公式(10)),拼接高斯分量为|π(在| qt,dt)=(1 - ω(θ,qt,dt))φat,u+u+(γ+γ)dtβ+β,β+β如果0<at≤ qtω(θ,qt,dt)φ在,u+u-(η+η)p+(γ+γ)dtβ+β,β+β如果在≥ qt(20),其中重量ω(θ,qt,dt)可使用等式获得。(17) 和(10)。经过一些代数运算后,这会产生以下公式ω(θ,qt,dt)=I(θ,qt,dt)I(θ,qt,dt)+I(θ,qt,dt)=1+I(θ,qt,dt)I(θ,qt,dt)(21),其中函数I(θ,qt,dt)在上述等式中定义。(11). 比率I(θ,qt,dt)/I(θ,qt,dt)可等效表示为以下形式:I(θ,qt,dt)I(θ,qt,dt)=e-p(η+η)qt-u+u+(γ+γ)dtβ+β-p(η+η)2(β+β)Rqte-(β+β)在-u+u+(γ+γ)dtβ+βdatR公司∞qte公司-(β+β)在-u+u+(γ+γ)dt-(η+η)pβ+βdat(22)可以通过直接计算进行检查,公式(21)与公式(22)给出的比率I(θ,qt,dt)/I(θ,qt,dt)符合从at=qt的连续性条件中获得的权重公式,如果我们直接从公式(20)开始。这将产生,类似于等式(9),ω(qt,dt)=1+expnlogφqt,u+u+(γ+γ)dt-(η+η)pβ+β,β+β- 对数φqt,u+u+(γ+γ)dtβ+β,β+βo(23)两个表达式(21)和(23)重合的事实意味着“后”分布π(at | qt,dt)在at=qt时是连续的,只要先验分布π(at | qt,dt)在那里是连续的。

18
能者818 在职认证  发表于 2022-6-2 18:31:08
随着at=qt时的连续性,最优(或“后验”)作用分布π(at | qt,dt)与参考(“前验”)分布π(at | qt,dt)具有相同的混合离散拼接高斯结构,同时组分分布的混合权重、均值和方差也发生了变化。我们模型的这种结构保持特性在某种意义上类似于共轭先验贝叶斯分析的结构保持特性。请注意,拼接高斯分布(20)的模拟只比标准高斯分布的模拟稍微复杂一些。这包括首先模拟拼接分布的一个组成部分,然后模拟该分布中的截断正态随机变量。通过混合分布(18)的重复模拟,以及状态变量qt、dt的确定性更新,获得不同的消耗路径。下面将给出示例。4.3.2计划的总预期效用给定特定服务的消费计划,月费Fj,初始分配Q0,jand价格pj(其中j=1,…,j),计划开始时的总预期效用isRtotj=-ηFj+XtE[r(at,qt,dt)| q=q0,j,p=pj](24)如果给定的客户在所有j个可能的计划中选择了计划j,并且我们假设客户的反应是合理的,那么这会产生一组不平等rtj≥ Rtotk,k 6=j(25),可等效表示为参数η:η的一组不等式≥PtE[r(at,qt,dt)| q=q0,k,p=pk]-PtE[r(at,qt,dt)| q=q0,j,p=pj]Fk- Fj,k 6=j(26)根据消耗计划的规格,该关系可用于验证(或改进)从上述MLE程序中获得的η估计值,或作为η校准的唯一来源。

19
kedemingshi 在职认证  发表于 2022-6-2 18:31:11
特别是,一些服务提供商不允许任何超出计划限制的额外消费。虽然这可以正式地表示为极限p中呈现的形式主义的一个特例→ ∞, 这也意味着数据中不会出现任何超出配额的消费,因此无法从MLE程序中学习价格敏感性参数η。在这种情况下,推断η的唯一方法是torely不等式(26),它为该参数提供了一个下限。公式(26)分子中出现的预期回报应在使用MLE估计其他模型参数后通过模拟计算得出。3.3促销设计的反事实模拟对于可能的促销设计(Fj、q0、j、pj)(j=1,…,j),可以根据不同的计划升级场景对未来客户行为进行反事实分析。我们可以模拟N条未来消费路径,然后再次使用公式(24),为了方便起见,我们在这里重复该公式,以计算未来消费的预期效用:Rtotj=-ηFj+XtE[r(at,qt,dt)|q=q0,j,p=pj](27)因此可以对不同的消费计划进行定量比较,并在Rtotj(j=1,…,j)中按递减顺序对它们进行排序,显示它们在总预期效用方面对客户的吸引力下降。4数值实验4.1消耗路径的模拟为了测试我们的模型,我们通过模拟混合拼接分布方程(18)中的每日消耗路径,从模型中生成人工数据,如第节末尾所述。3.1.每日消耗量的模拟如图1所示,而剩余裕量的结果轨迹如图2所示,其中我们选取了以下模型参数值:q=600,p=0.55,u=0.018,β=0.00125,γ=0.0005,η=0.1666,κ=0.0007。

20
能者818 在职认证  发表于 2022-6-2 18:31:15
此外,我们设置u=u、β=β、γ=γ、η=η、κ=κ和ν=0.05。请注意,尽管效用函数保持不变,但由于观测噪声的影响,每个月的消费量可能会有很大差异(例如,客户可能在大约80%的时间段内用完配额,或者可能在月末有一个单独的未使用配额)。图1:模拟每日消耗量4.2最大似然估计的有限样本特性虽然已知最大似然估计(MLE)可为估计的模型参数提供渐近无偏结果,但在实践中,我们必须处理在单个客户层面上历史长度有限的数据。例如,参考文献[4]的结构模型是针对1000个客户的9个月数据进行培训的。虽然收集更多数据可能会增加待分析的客户数量,但由于客户流动性等诸多因素,收集长期的个人消费历史可能会更加困难。鉴于服务消费的长时间序列的可用性存在这些潜在的局限性,在我们的模型设置中研究MLE估计的有限样本属性非常重要。特别要注意的是,即使两个客户具有相同的“真实”模型参数,他们的有限样本MLE估计值对于这些客户来说通常是不同的。因此,模型在各个客户之间进行区分的能力取决于其MLE估计器在实际预期环境中的偏差大小和方差,即可用于分析的数据量。我们注意到,参考。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 06:01