楼主: mingdashike22
1160 22

[量化金融] 面向营销的逆向强化学习 [推广有奖]

21
能者818 在职认证  发表于 2022-6-2 18:31:18
[4] 报告称,1000名用户的9个月观测数据集的估计模型参数存在很大的异质性,但他们没有说明估计器的有限样本属性,因此遗漏了对其结果的最简单解释,因为他们的估计器中存在“观测噪声”,即使是完全同质的客户也会观察到这种噪声。我们通过对N个月的消费历史进行重复抽样(Nptimes),估计了我们模型的最大似然估计量的“经验”分布,同时保持上述模型参数不变。对于每个模型参数,我们计算其NP估计值的直方图。结果如图所示。3-5,其中我们分别显示NM=10、100和1000个月数据的结果直方图,同时保留exFigure 2的数量:所有图的模拟剩余AllownCeperiments Np=100。注意,对于除β以外的所有参数,Nm=10的MLE估计的标准偏差几乎等于其平均值。这意味着两个每天观察10个月的用户很难被模型区分开来,除非他们的隐含参数相差两倍或更多。这可能会对参考文献[4]中类似设置中暗示的模型隐含的客户异质性产生一些怀疑,并表明这种异质性中的一些(如果不是全部)可以简单地用模型估计过程的有限样本噪声来解释,而所有客户实际上从模型角度看都是不可区分的。另一方面,我们可以看到,随着观察期从10个用户月增加到1000个用户月,极大似然估计的偏差和方差是如何减少的。这些结果表明,在实践中,应该使用具有类似消费行为的客户群来校准该模型。

22
能者818 在职认证  发表于 2022-6-2 18:31:21
虽然发现此类群体的问题不在本工作范围内,但这项任务可以通过使用可用的时间序列聚类技术来解决。5总结我们提出了一种用于动态消费者需求估计的最大熵反向强化学习(IRL)的非常易于处理的版本,它可以应用于为新产品和服务设计适当的营销策略的技术。在对经常性公用事业(如云计划、互联网计划、电力和天然气计划等)的营销和定价中的类似问题进行适当修改后,可以应用相同的方法。该模型可以方便地进行模拟,这有助于进行反事实的实验。在IRL/机器学习方面,与大多数其他版本的最大熵IRL不同,我们的模型不必求解Bellmanoptimality方程,甚至一次。我们的方法中的模型估计相当于低维空间中的对流优化,可以使用标准的o f-theshelf优化软件来解决。这在计算上比通常依赖蒙特卡罗模拟进行模型参数估计的结构模型容易得多。参考文献【1】P.Chintagunta、T.Erdem、P.E.Rossi和M.Wedel,“营销中的结构建模:回顾和评估”,《营销科学》,第25卷,第6期(2006),第604-616页。[2] J.Kober、J.A.Bagnell和J.Peters,“机器人强化学习:aSurvey”,《国际机器人研究杂志》,第32卷,第11期(2013),第12381278页。[3] S.Liu、M.Araujo、E.Brunskill、R.Rosetti、J.Barros和R.Krishnan,“通过反向强化学习进行不理解的顺序决策”,2013年IEEE第14届移动数据管理国际会议。[4] L.Xu、J.A.Smith、Y.Hu、Y.Cheng和Y。

23
可人4 在职认证  发表于 2022-6-2 18:31:25
Zhu,“异构移动数据消费和推广设计的动态结构模型”(2015),工作论文,可访问https://www.krannert.purdue.edu/academics/MIS/workshop/Xuetal2015动态移动数据。pdf。[5] Brian D.Ziebart等人,《最大熵反向强化学习》(2008),AAAI,第1433-1438页(2008)。[6] B.D.Ziebart、J.A.Bagnell和Anind K.Dey,“估计相互作用过程的最大因果关系原则”,IEEE信息论学报(2012年)。[7] A.Boularias、J.Kober和J.Peters,“相对熵反向强化学习”(2011)。[8] ,M.Kalakrishnan,P.Pastor,L.Righetti和S.Schaal,“操作的学习目标函数”,机器人与自动化国际会议(ICRA),2013年。[9] C.Finn、S.Levine和P.Abbeel,“引导成本学习:通过政策优化进行深度反向最优控制”(2016年)。图3:Nm=10个月数据的极大似然估计分布图4:Nm=100个月数据的极大似然估计分布图5:Nm=1000个月数据的极大似然估计分布图

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 07:58