楼主: nandehutu2022
1629 75

[量化金融] 驾驶员激增定价 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-23 23:39:56
特别是,骑手需求(强度和分布)可能会随着时间的推移而发生实质性变化,甚至在一天之内(参见附录图9c)。为了研究这种动态特性如何影响驾驶员决策,我们考虑了一个具有两种状态的模型,即∈ {1,2},其中i=2表示浪涌状态。(在高水平上,激增状态为驱动因素提供了更高的收益率。在我们制定了每个州的驱动因素收益率后,第2.2.2节给出了精确的定义)。世界在这两种状态之间随机演化,形成一个连续时间马尔可夫链(CTMC)。当世界处于状态i时,状态根据固定指数时钟变化为j,该时钟以λi的速率滴答作响→j、 独立于其他随机性。当在状态i下打开时,驱动程序以λi的速率接收作业请求,其长度为τ~ Fi,并根据支付函数wi收集spayout,该函数在单状态模型中假定与w具有相同的属性。当司机在旅途中,世界的状态可能会改变。至关重要的是,当旅行开始时,取款人会根据世界状况i收到付款。我们将使用w={w,w}表示总体定价机制。2.2驾驶员策略和收益在我们的模型中,驾驶员可以决定是否接受行程请求,而不会受到处罚。在单态模型中,让σ R+,(0,∞) 表示驾驶员的(固定)策略,其中τ∈ σ表示驾驶员接受长度为τ的作业请求。在动态模型中,驱动器超出了本工作的范围,参见Bimpikis等人(2016)。这些限制是无害的。有了连续性,类似的旅行费用也会相同。渐近次线性意味着行程附加长度的边缘值保持有界;如果F的域是有界的,则它通常成立。这一假设遵循优步目前的做法。

12
能者818 在职认证  发表于 2022-6-23 23:39:59
我们将在第2.4节中进一步讨论驾驶员信息集。遵循策略σ={σ,σ},其中σi R+表示在状态i中接受的工作。我们假设驱动政策相对于F(对应的Fiin动态模型)是可测量的;出于技术原因,在动态模型中,我们还假设σi是开放区间的并集,即R+的开放子集。当我们用策略σ写等式时,我们的意思是等于度量值0的变化。司机的寿命很长,他们的目标是在平台上最大化自己一生的平均小时收入,包括开放时间和繁忙时间。如果驾驶员遵循政策σ且支付函数为w,则R(w,σ,t)表示从时间0到时间t接受的工作的(随机)总收入。然后,驾驶员的终身收入率isR(w,σ),lim inft→∞R(w,σ,t)t。该收益率是一个确定性(非随机)量,是驱动策略σ、定价函数w和基元的函数。驾驶员政策σ*对于定价函数w,如果它在所有政策中使驾驶员的终身收益率最大化,则为最优(最佳响应):R(w,σ*) ≥ R(w,σ),对于所有有效的策略σ(即,相对于F或Fi可测量,使用σiopen集)。

13
可人4 在职认证  发表于 2022-6-23 23:40:02
然后,如果接受所有作业请求相对于w是最优的,即σ=(0,∞) 在单态模型中,或σ={(0,∞), (0, ∞)} 在动态模型中,相对于w是最优的。换言之,如果收益最大化的驾驶员(知道所有原语w和请求时的行程长度τ)接受每个行程请求,则支付函数w是激励相容的。现在,我们分析每个模型的驾驶员终身收益率R(w,σ)。2.2.1司机收入在单一状态模型中,在单一状态模型中,原语直接诱导更新奖励过程,其中给定的更新周期是司机在完成一项工作后新开的时间到他们再次开的时间。设W(σ)为行程τ的平均收益∈ σ、 即更新周期内的预期收益;设T(σ)为可接受行程的预期等待时间和atrip的预期长度之和,从而为预期更新周期长度;设F(σ)为驾驶员收到σ请求的概率。然后,终身驾驶员平均小时收入(收益率)isR(w,σ)=w(σ)T(σ)=F(σ)Rτ∈σw(τ)dF(τ)F(σ)λ+F(σ)Rτ∈στdF(τ)第一个等式源自更新奖励定理,在动态模型中概率为1.2.2.2驾驶员收入。另一方面,对于动态模型,我们不能直接使用更新奖励定理,更新周期仅包含一次行程。司机在一次给定旅行中的收入不再依赖于其他旅行的收入:如果一份工作是在激增状态下开始的,司机的下一份工作更有可能也是在激增状态下开始的。然而,考虑到每项工作是否在激增状态下开始,工作收入是独立的。我们可以用这个性质来证明下一个引理,它给出了动态模型中的驾驶员收益率。

14
nandehutu2022 在职认证  发表于 2022-6-23 23:40:05
设ui(σ)为驾驶员在打开状态i或从状态i开始的行程中花费的时间分数。引理1。在动态模型中,收益率可以分解为每个状态i的收益率Ri(wi,σi)和状态i花费的时间ui(σ)的分数:R(w,σ)=u(σ)R(w,σ)+u(σ)R(w,σ),概率为1。在单态模型中,Ri(wi,σi)=wi(σi)Ti(σi),其中wi(σi)=Fi(σi)Zτ∈σiwi(τ)dFi(τ),Ti(σi)=λiFi(σi)+Fi(σi)Zτ∈σiτdFi(τ)我们通过定义一个新的更新过程来证明这一结果,在该过程中,单个奖励更新周期是:从状态1中的驱动程序打开到状态1中的驱动程序在状态2中至少打开一次后,在状态1中的下一次打开之间的时间。换言之,每个更新循环由一定数量(可能为零)的子循环组成,其中驾驶员在状态1中打开,然后在完成行程后再次在状态1中打开;一个子循环,从驾驶员在状态1下打开开始,到在状态2下打开结束(在完成行程后或在打开状态转换后);一些子循环数(可能为零),其中驾驶员在状态2下打开,然后在完成行程后在状态2下再次打开;最后一个子循环从状态2开始,以状态1中的驱动器打开结束。考虑到截至时间t完成的此类更新奖励周期的数量,从每个州开始的总收益(每个子周期的收益)是相互独立的,然后我们使用Wald的身份(Wald,1973)来分离ui(σ)和Ri(σi)。注意,Ti(σi)并不完全是给定σi状态下单个子循环的预期时间长度,而是与其成正比;乘法常数λiFi(σi)+λi→j在给定σi的状态下,在单个子周期内,用相同的预期收益常数取消。

15
mingdashike22 在职认证  发表于 2022-6-23 23:40:08
这一恒量来自于原语:当驱动程序在状态i中打开时,有两个相互竞争的指数锁(速率λiFi(σi)和λi→j、 分别)来确定驱动程序是否会在世界状态更改之前接受请求。ui(σ)是什么样子的?在制定激励相容定价之前,我们推迟在第4.1节中显示确切形式。这里,我们提供了一些直觉:驾驶员在每个州接受的行程决定了他们在每个州开始的行程中花费的时间部分。Ifa驾驶员从不接受非喘振状态下的行程,一旦喘振开始,行程将打开,因此可用于Trip。相反,如果司机在浪涌结束前接受长时间的浪涌行程,即使浪涌已经结束,他们也将根据浪涌支付功能得到支付。令人惊讶的是,考虑到报酬R(w,σ)的复杂公式取决于σ={σ,σ},我们发现了最优政策的结构,因为它们取决于定价wi,以及激励的可竞争定价函数。最后,我们现在可以精确地定义i=2为激增状态意味着什么:它的潜在收益率高于状态1。存在一些政策σ,使得R(w,σ)>R(w,σ),对于所有σ R+。换言之,假设我们处于单态设置,其中基元被设置为(λ,F,w)或(λ,F,w)。那么后一组原语将产生更高的最大收益。这一假设不同于每个喘振跳闸支付的费用高于等效非喘振跳闸w(τ)的说法≥ w(τ),τ、 两种说法都没有暗示另一种。根据这一定义,激增的特点可能是每次出行的费用更高。

16
何人来此 在职认证  发表于 2022-6-23 23:40:11
或者,如果由于需求冲击,请求到达率很高,λ λ、 这样,司机在两次出行请求之间等待的时间就少了,因此有了更高的收益率——即使没有更高的每次trippayments。虽然在实践中不太常见,但我们的模型进一步允许激增的特点是,与F相比,F的出行分布更有利可图,即使出行强度和有条件的ontrip长度相同的出行支付。更一般而言,激增的特点可能是这些情景的组合。2.3平台目标和约束得出驾驶员奖励后,我们现在描述平台目标,并设定我们在其余工作中解决的技术挑战。回想一下,我们的模型是解耦的:骑手和驾驶员的价格是分别确定的。在非耦合定价下,平台控制着向骑手收取的价格pi(τ)和向驾驶员支付的行程长度τ-的付款wi(τ),这两个值的比例可能因行程而异。这种建模假设遵循了当前的做法(优步,2019e),允许我们关注驾驶员的视角,而不会使分析更加复杂。驱动因素付款与解耦定价的作用是什么?在实践中,如果要求骑乘,平台会向骑乘者报价,并“保证”充分满足;因此,司机付款应主要确保所有要求的乘坐设施都已满,从而推动我们设计具有激励性的可竞争价格的目标。在附录A.1节中,我们通过将驾驶员薪酬w视为综合平台挑战的一个子问题,将这种直觉形式化,包括共同设定驾驶员价格和驾驶员薪酬,以最大限度地实现目标(例如,利润或福利)。

17
能者818 在职认证  发表于 2022-6-23 23:40:14
Weestablish认为,在我们的模型中,通过解耦定价和收益最大化驱动因素,这个联合问题可以分解为一个骑乘者定价(本工作中未考虑)决定目标值的问题,根据满足激励相容性和驾驶员参与约束的驾驶员付款政策:驾驶员收益率高于外侧期权收益率(表示为R),即最大σR(w,σ)≥ R、 在动态模型中,我们还考虑了每个州的驾驶员收入约束,Ri(wi,(0,∞)) =对于某些外生的R>R。该约束来自实践,通过我们的模型中未直接捕获的特性。如附录A.2节所述,按照目前的做法,在我们的模型平台中,施加了一个业务约束,以将每个世界州的附加费收入大致传递给驾驶员,即约束RIA由每个州的收入、最新需求和附加费价格的函数确定。如果平台具有更大的灵活性,也可以对Rimay进行优化,例如引导驾驶员将自己定位在浪涌更频繁的区域。Lu等人(2018年)根据经验发现,驾驶员确实会重新定位到更高的喘振区域。Ong et al.(2020)描述了Lyft如何在时间和空间上管理激励性预算,以激励驾驶员重新定位,并在一个耦合的定价设置中,Besbes et al.(2018b)从理论上展示了如何设定价格以诱导驾驶员移动。更广泛地说,一个时空周期内的收入可用于在另一个周期内平衡司机的工资,参见Asadpour等人(2019);Bai等人(2018年)。在这项工作中,我们不直接考虑平台应该如何设置Ri(或R);如何在空间和时间上做到这一点是未来工作的一个有趣途径。相反,我们建立了一系列Rifor的结果,这些Rifor可以构建激励性的可竞争价格。

18
大多数88 在职认证  发表于 2022-6-23 23:40:18
这种分解反映了在实践中如何设置解耦的激增定价,对于本工作的其余部分,我们寻求满足这些条件的支付政策。2.4实用性考虑我们的模型在几个重要方面都是程式化的,打车实践在市场、时间或地理上都不一致。我们的理论模型反映了我们对实践中最相关组件的看法。驱动因素热图和a ffne定价我们对a ffne定价方案特别感兴趣,其中wi(τ)=miτ+ai,mi≥ 0(在单态模型中:w(τ)=mτ+a,其中m≥ 0; 我们将ai>0(ai<0)的情况视为正(负)定价)。这样的定价功能复杂的定价带来了更多的限制。Bai等人(2018年)和Bikhchandani(2020年)都认为,平台应根据需求调整其支付比率,例如脱钩,以最大化利润或整体福利。可以通过时间和距离速率(例如,参见优步(2019d)),以及热图上显示的喘振分量进行通信。这种简单性是实践中的一个重要要求,在实践中,司机应该清楚地知道报酬。驾驶员信息结构:出行时间和到达驾驶员的时间。我们假设平台向驾驶员显示请求时的总行程长度,并且驾驶员可以自由拒绝,而不会受到处罚。驾驶员在接车之前通常看不到驾驶员的目的地或行程长度(但他们可以根据接车时间拒绝请求,而不会受到处罚)。一些司机提前打电话确定车手的目的地,甚至取消在取车地点的行程,给车手和司机都带来负面体验。我们对激励相容性的概念是事后的,即驾驶员会接受所有行程,即使知道行程长度。

19
kedemingshi 在职认证  发表于 2022-6-23 23:40:21
这种观念比事先设定的行程长度不向驾驶员透露的情况更为强烈。此外,在实践中,工作有两个组成部分:接送骑手所需的时间,以及骑手在驾驶车辆中的时间——前一部分通常是无偿的。我们的模型将这两个部分组合成一个总行程长度,从而确定付款。马尔可夫激增和模型限制。在实践中,高峰有很强的日间模式——例如,高峰时间有较高的平均高峰值,参见附录图9b。然而,在驾驶员个人出行决策水平上,在较短时间尺度上的涌浪演变更为不稳定,更为可信,参见附录图9c。我们的理论模型假设喘振是马尔可夫和二进制的,是单个驱动因素的响应,并进一步忽略了空间效应。我们在A.3和B.1节中讨论了这些问题,第6节中的实证分析表明,尽管存在这些理论局限性,我们的见解仍延伸到了实践中。3激励相容性与a ffne定价在本节中,我们研究a ffne定价的激励相容性。在第3.1节中,我们首先描述了单一状态模型中驱动因素对任何定价函数w的最佳响应策略。然后,我们观察到乘法定价,即w(τ)=mτ的一种特例,是激励相容的。相反,在第3.2节中,我们表明,在动态模型中,乘法定价可能不再与激励相容。我们进一步推导了每个州关于单一或乘法定价的最优驱动政策结构,这将使我们能够在第5节中对加法和乘法冲动的激励相容性进行数值研究。

20
能者818 在职认证  发表于 2022-6-23 23:40:24
第3.3节讨论了这两个模型中的关键差异,建立了第4节,在该节中,我们推导出了动态模型的激励相容定价函数。3.1单一状态模型:乘法定价与激励相容。第一个结果是单一状态模型中的简单最优驱动策略。定理1。对于单个状态,每个w都存在一个常数cw∈ R+使得政策σ*=nτ:w(τ)τ≥ 关于w,cwois对驾驶员是最优的。定理1确定,在具有泊松工作到达的单状态模型中,工作的长度并不重要,只重要工作繁忙时的小时率。政策中的最佳做法是,这种做法在各个市场和地点之间并不一致。例如,截至2020年1月,在加利福尼亚州,优步在请求时向司机显示目的地和付款估计。激励相容性定价是展示此信息的重要垫脚石。我们注意到,目的地歧视违反了优步的指导方针,可能导致停用(优步,2019a)。Lyft最近进行了一项试验,即向司机支付接送车手所需的时间(Auerbach,2019)。不一定cw=supw(τ)τ:司机在旅行时必须用他们的收入率来交换收入率;驾驶员拒绝的行程越多,等待可接受行程的时间越长。在附录中,我们从任意的政策σ开始,对政策进行修改,以提高在职期间的收入率,而不降低利用率,从而证明了结果。因此,每一次这样的变化都会改善奖励R(w,σ),并且对于某些阈值c,变化的顺序会产生上述形式的策略。然后,可以优化该阈值c,从而得到这种形式的最优策略。定理1的直接推论是,w(τ)=mτ,当m>0时,为IC。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-8 00:44