楼主: mingdashike22
1158 22

[量化金融] 面向营销的逆向强化学习 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8216
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-2 18:30:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Inverse Reinforcement Learning for Marketing》
---
作者:
Igor Halperin
---
最新提交年份:
2017
---
英文摘要:
  Learning customer preferences from an observed behaviour is an important topic in the marketing literature. Structural models typically model forward-looking customers or firms as utility-maximizing agents whose utility is estimated using methods of Stochastic Optimal Control. We suggest an alternative approach to study dynamic consumer demand, based on Inverse Reinforcement Learning (IRL). We develop a version of the Maximum Entropy IRL that leads to a highly tractable model formulation that amounts to low-dimensional convex optimization in the search for optimal model parameters. Using simulations of consumer demand, we show that observational noise for identical customers can be easily confused with an apparent consumer heterogeneity.
---
中文摘要:
从观察到的行为中了解客户偏好是营销文献中的一个重要主题。结构模型通常将前瞻性客户或公司建模为效用最大化代理,其效用是使用随机最优控制方法估计的。我们提出了一种基于反向强化学习(IRL)的动态消费者需求研究方法。我们开发了一个版本的最大熵IRL,该IRL导致了一个高度易处理的模型公式,该公式相当于在搜索最优模型参数时的低维凸优化。通过对消费者需求的模拟,我们发现相同客户的观测噪声很容易与明显的消费者异质性混淆。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Systems and Control        系统与控制
分类描述:cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究,涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制,以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--

---
PDF下载:
--> Inverse_Reinforcement_Learning_for_Marketing.pdf (518.68 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Applications Optimization Intelligence Mathematical Experimental

沙发
能者818 在职认证  发表于 2022-6-2 18:30:15
市场反向强化学习Gor HalperinNYU Tandon工程学院邮件:igor。halperin@nyu.eduDecember14,2017摘要:从观察到的行为中学习客户偏好是市场营销文献中的一个重要主题。结构模型通常将前瞻性客户或企业建模为效用最大化代理,其效用是使用随机最优控制方法估计的。我们提出了一种基于反向强化学习(IRL)的动态消费者需求研究方法。我们开发了一个版本的最大熵IRL,该IRL导致了一个高度易处理的模型公式,该公式在搜索最优模型参数时涉及低维凸优化。通过对消费者需求的模拟,我们发现相同客户的观察噪音很容易与明显的消费者异质性混淆。1简介了解客户的选择、需求和偏好,客户是消费者或企业,是营销文献中永恒的主题。特别是,结构化营销模型通过将消费者或企业建模为效用最大化的理性代理人来构建消费者或企业模型(参见例[1])。与“简化形式”(纯统计)模型不同,结构模型旨在从特定营销活动引起的影响中剖析真实的消费者选择和需求参考,从而促进新产品和供应商的推广,然后可以根据所学的消费者效用来评估其对消费者的吸引力。特别是在消费者需求研究领域,可以区分静态需求和动态需求。

藤椅
kedemingshi 在职认证  发表于 2022-6-2 18:30:18
本文讨论了在动态、多周期环境中学习消费者需求函数的问题,在这种环境中,客户可以在预先确定的时间段(一周、一个月、一年等)内选择其最佳消费,既可以是战略性的,也可以是非战略性的。此类设置与营销不同的当前公用事业计划和服务相关,如云计算计划、互联网数据计划、公用事业计划(电力、天然气、电话)等。结构模型通过将前瞻性消费者建模为理性主体,在规划期内最大化其预期消费效用流,而不是其一步效用,来解决此类问题。结构模型通常为消费者效用指定一个模型,然后使用动态规划和随机最优控制的方法对该模型进行估计。这类模型通常计算量很大,因为它们常常涉及到贝尔曼最优方程的重复求解,这是结构模型在工业层面广泛部署的主要障碍之一。我们提出了一种基于反向强化学习(IRL)的动态多周期消费者需求效用学习方法。虽然IRL多年来被广泛应用于机器人领域【2】,但最近它也被应用于其他领域,尤其是研究人类行为,参见例【3】。然而,我们不知道有任何文献会专门针对营销问题应用反向强化学习。本文的主要贡献是最大熵IRLmethod(Ziebart 2008)的一个新版本,它为优化模型参数带来了一个非常容易处理的凸优化问题。我们的模型能够进行简单的模拟,从而可以使用它来研究消费者效用最优参数估计量的有限样本特性。

板凳
可人4 在职认证  发表于 2022-6-2 18:30:21
特别是,我们使用模拟来证明,由于有限的样本效应,具有相同需求效用的消费者很容易被误认为是异质消费者。1.1考虑到客户观察到的行为,相关的工作收入客户偏好是心理学、市场营销、统计决策、最优控制和人工智能(AI)社区的一个积极研究主题。根据不同的领域,它通常在营销和心理学文献中被称为客户选择问题,在统计决策文献中被称为偏好诱导问题,在人工智能文献中被称为逆向强化学习问题。在学习消费者动态需求的特定背景下,之前的研究主要遵循随机最优控制(SOC)方法。特别是,Xu等人最近的一篇论文【4】开发了一个基于结构化SOC的模型,该模型使用手机用户的日常消费观察数据预测其偏好。在逆强化学习方面,我们的框架植根于最大熵IRL(MaxEnt IRL)[5,6]方法。最大熵IRL的其他相关参考文献为参考文献。[7, 8, 9].1.2我们的方法概述与Xu等人[4]类似,此处提出的框架侧重于消费数据。虽然我们的方法可以应用于导言中概述的许多不同的业务设置(如云计划、数据计划、公用事业计划等),但我们遵循参考文献[4],并考虑移动电话用户的消费公用事业,以便于与其方法进行直接比较。我们的模型根据少量的自由参数(尤其包括用户价格敏感性)对用户效用(奖励)函数进行参数化,然后根据用户的数据消费历史估计这些参数。与Ref不同。

报纸
大多数88 在职认证  发表于 2022-6-2 18:30:26
[4] ,我们不遵循随机最优控制方法,而是依赖于人工智能和机器学习社区中为类似任务开发的IRL方法。更具体地说,我们基于流行的最大熵(MaxEnt)IRL方法的高度易处理版本开发了一个模型【5,6】。与参考文献[4]的模型相比,我们的方法具有许多重要的优势。首先,我们的模型估计要简单得多,相当于一个具有5个变量的凸优化问题,可以使用标准的Off-she shelf优化软件轻松处理。这使得我们的模型能够高效地进行数值实现。相比之下,Xu等人的模型依赖蒙特卡罗进行模型估计。其次,如果需要的话,通过添加额外的特性,我们的模型更易于推广。第三,我们模型的可跟踪性允许我们研究有限样本“观测噪声”对估计模型参数的影响。参考文献[4]没有解决这个问题,该文献根据对少数用户相对较短(9个月)历史的模型估计,提出了实质性用户的异质性。最后但并非最不重要的一点是,我们的方法经过适当修改后,通常可以应用于上述其他类似设置中的客户偏好学习。论文的其余部分组织如下。在第节中。2我们介绍我们的模型。昆虫3,我们展示了估计模型如何用于反事实模拟和营销策略设计。门派4给出了数值实验。2模型公式2.1用户效用函数考虑购买了单个服务计划的客户,其每月价格F、初始配额q和价格p将在违反计划上的每月配额后按消费单位支付。我们指定了客户时间t=0,1,…的单步效用(奖励)函数。

地板
nandehutu2022 在职认证  发表于 2022-6-2 18:30:29
T-1(其中T是付款期的长度,例如一个月),如下所示:r(at,qt,dt)=uat-βat+γatdt- ηp(at- qt)++κqtIat=0(1)≥ 0是第t天的每日消耗量,qt≥ 0是第t天开始时的剩余津贴,dt是计费周期结束前的剩余天数,我们对任何x使用短符号x+=max(x,0)。等式(1)中的第四项与付款p(在- qt)+每月报价用完后由客户制作。参数η给出了客户的价格敏感性,而参数u、β、γ指定了用户奖励对状态行动变量qt、dt、at的依赖性。最后一学期~ κqtIat=0给出在时间t=0时零消费时收到的奖励(这里Iat=0是一个指标函数,如果at=0,则等于1,否则为零)。模型校准相当于根据用户消费历史估计参数η、u、β、γ、κ。对于不允许违反配额q的计划,目前的形式主义仍然适用,将价格p设置为单位。注意,奖励(1)可以等效地写成如下(这里K=5):r(at,qt,dt)=Φ(at,qt,dt)=K-1Xk=0θkΦk(at,qt,dt)(2),其中θ=uhati,θ=-βhati,θ=γhatdti,θ=-ηph(at- qt)+i,θ=κhqtIat=0i(这里hXi代表X的经验平均值),以及以下一组基函数{Φk}k-使用1k=0:Φ(at,qt,dt)=at/hati,Φ(at,qt,dt)=at/hati,Φ(at,qt,dt)=atdt/hatdti,(3)Φ(at,qt,dt)=(at- qt)+/小时(at- qt)+iΦ(at,qt,dt)=qtIat=0/hqtIat=0等式(1)给出的用户奖励的定义与inRef提出的定义类似。[4] 但在四个方面与之不同。首先,我们添加了一个可能的双线性依赖关系,即奖励与每日消耗量和计划剩余天数的关系。其次,我们没有将参数β缩放为β=1,如参考文献所示。

7
何人来此 在职认证  发表于 2022-6-2 18:30:32
[4] (这是因为我们的框架不是,也不应该是尺度不变的)。第三,我们为零消费添加一个奖励,由等式(1)中的κqtIat=0给出。最后,也是最重要的一点,我们不能像参考文献[4]中所做的那样,将随机每日“用户冲击”ξ添加到u的值中。在参考文献[4]的方法中,用户效用函数中存在这种“私人用户冲击”的根本原因是,在经典马尔可夫决策过程(MDP)问题的设置中,动态通常是随机的,但策略和方向都是确定性的,已证明的次优(而非最优)行为可导致模型参数的发散解,和/或为演示轨迹分配零概率。正是通过在参考文献[4]中采用的结构模型方法中引入私人(即建模者未观察到的)冲击ξ来解决这个问题:因此,向上函数由一个额外的随机项σ(at,qt,dt)ξt增加,其中包含一些参数化的“波动性”函数σ(at,qt,dt)(参考文献[4]中使用了σ(at,qt,dt)=at的特定形式),虽然给出下一个ATI值的政策π(at,qt,dt,ξt)是ξt的非确定性函数。因此,该框架中的所有模型估计都是基于此。我们注意到,我们对无消费行为的规定比Xu等人[4]的建议更为灵活,Xu等人将零消费事件解释为在零下审查的高斯过程的观察结果。相反,我们的模型以引入额外的自由参数κ为代价,解开了零消费和非零消费事件之间的联系。经典的MDP问题处理的是一个完全观测的马尔可夫过程,其中始终存在一个最优确定性策略。

8
何人来此 在职认证  发表于 2022-6-2 18:30:35
因此,经典的随机最优控制方法通常适用于确定性策略。对私有冲击ξt的路径进行蒙特卡罗模拟,然后使用它们生成每个时间步的可观测路径(at,qt)。我们没有依赖结构模型的范式,而是遵循了反向强化学习(IRL)的最大熵方法的思想,即概率论,并将概率分配给观察到的路径【5,6】。由于其概率特性,这种方法不需要在效用函数中引入随机冲击来协调模型与可能的次优行为。如下所述,我们的方法比参考文献[4]中的方法有许多优点。最重要的是,它不需要蒙特卡罗来估计用户效用的参数,而是使用带有5个变量的凸负对数似然函数来进行直接的最大似然估计(MLE),这可以使用standardo ff-the shelf凸优化软件高效地完成。此外,如果需要,我们的模型可以通过添加更多的基函数来简化奖励函数,同时保持方法的其余部分不变。2.2逆最优控制和逆强化学习给定观察行为的报酬估计问题(在经济学和计量经济学文献中传统上称为跨时效用函数)是一个逆最优控制问题。在直接最优控制中,目标是优化策略(即消费策略π(at | qt,dt)),以便在已知或独立估计消费动态的情况下,最大化用户的预期总回报(总效用)。

9
nandehutu2022 在职认证  发表于 2022-6-2 18:30:39
(直接)强化学习(RL)解决了同样的问题,但不了解动力学,而是依赖于系统的样本。相反,在逆最优控制(IOC)或逆强化学习(IRL)公式中,问题是找到观察到的行为所给予的奖励(可以在在线或在线环境中获得)。虽然在IOC设置中,假设动力学已知,但在IRL方法中,动力学未知,只有在这些动力学下获得的样本可用。请注意,参考文献[4]使用两步结构法来估计消费模型,该模型首先估计经验政策,然后确定效用函数的结构参数,这些参数与经验上“观察到的”最优政策一致。IRL文献中有时也采用了类似的方法,试图同时估计与该奖励兼容的奖励和政策函数。相反,我们的最大熵IRL模型要简单得多,因为在我们的设置中,参数会自动调整用户策略函数,因为考虑到每日消费,累积消费过程是确定的。2.3最大熵IRL和相对熵IRL最大熵IRL(MaxEnt IRL)[5,6]方法是目前最常用的IRL方法。在我们的设置中,最大熵参数应用于单步(每日)跃迁概率P(qt+1,at | qt,dt)。MaxEnt解决方案要求该分布应与沿此类单步路径的经验计数φk(at,qt,dt)相匹配,否则应尽可能接近均匀分布。定量地,最后一个条件被施加为所寻求的分布和均匀分布之间的Kallback-Leiblerrelative熵最小化的条件。

10
kedemingshi 在职认证  发表于 2022-6-2 18:30:43
我们使用了MaxEnt IRL的一个扩展,称为相对熵IRL【7】,它用非均匀基准(或“先验”)分布π(在| qt,dt)代替MaxEnt方法中的均匀分布。这将产生指数单步跃迁概率:P(qt+1=qt- at,at | qt,dt)≡ π(at | qt,dt)(4)=π(at | qt,dt)Zθ(qt,dt)exp(r(at,qt,dt))=π(at | qt,dt)Zθ(qt,dt)exp(qt,dt)),其中Zθ(qt,dt)是依赖于状态的归一化因子Zθ(at | qt,dt)exp(at,qt,dt))dat(5)我们注意到MaxEnt IRL的大多数应用都处理多步TRAL将轨迹作为素数对象,并定义轨迹空间上的配分函数Zθ。虽然MaxEnt IRL的应用程序精确计算了[5]中小型离散状态作用空间的Zθ,但对于大型或连续状态作用空间,只能使用近似动态规划或其他方法近似地进行此类计算。例如,Bourarias等人[7]的相对熵IRL方法使用参考(“背景”)策略分布的重要性抽样来计算Zθ。正是这种计算对大型或连续状态作用空间的最大/相关IRL方法的应用构成了主要的计算瓶颈。与此相反,在我们的方法中,每个时间步都定义了依赖于状态的归一化因子Zθ(qt,dt)。因为我们用依赖路径的“全局”分区函数Zθ来交换依赖于局部状态的因子Zθ(qt,dt),所以我们不需要依赖exactor近似动态规划来计算该因子。我们的方法与Bourarias等人的方法有些相似(因为它也依赖于相对熵最小化),但在我们的情况下,参考分布π(at | qt,dt)和归一化因子Zθ(qt,dt)都是在单个时间步上定义的,Zθ(qt,dt)的计算相当于计算积分(5)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 03:30