楼主: 大多数88
1324 27

[量化金融] 风险感知的多臂Bandit问题及其在投资组合中的应用 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-1 08:32:43
观察到这棵树总共有14片叶子(WFC、C、GS、KEY、PNC、SCHW、KR、DAL、HCP、EQIX、DUK、NFLX、GE、F),从这些叶子中选择来构建投资组合几乎总是比所有顶点的投资组合减少每日损失的中值。例如,图1(c)提供了从14片树叶中随机选择10个顶点的投资组合的性能,这将平均对数价格比从-0.0101增加到-0.0079,平均日收益率从-0.0095增加到-0.0070。此外,图1(d)显示协方差矩阵的特征值谱变得不那么紧凑。最后,我们承认市场结构的动态性质,但为简单起见,我们的研究将不考虑这一方面。因此,我们从最小生成树中选择K个最外围顶点作为我们的投资资产。我们注意到,对于任何具有不同边权重的图G,都证明了最小生成树T是唯一的,这与金融数据的高精度情况相同。我们选择的顶点往往位于星形图的叶子上,周期的最长边的两端,晶格的角上。在图论[39]中讨论的众多中心度度量中,我们使用最直接的度量,并选择次数最少的k个顶点。K值是主观的,可以根据学习者对经济状况的看法来确定。假设选择了K资产,我们继续进行portfolioconstruction,如下所述。RSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12
能者818 在职认证  发表于 2022-6-1 08:32:46
.(c) 组合顺序投资组合选择算法我们设计了一种顺序投资组合选择算法,该算法将最优多臂Bandit策略(即Auer等人[11]提出的UCB1)与一致风险度量(即条件风险值)的最小化相结合。回想一下,每项资产的回报率Ri,tof定义为对数价格比,即Ri,t=logPi,t+1/Pi,t. UCB1政策定义如下。首先,选择每项资产一次,并在前K次试验期间观察回报。然后,对于每个试验,选择在一定置信水平下最大化估计收益上限的资产。准确地说,在每次试验中我们都会选择它*def公司=t如果t≤Karg最大值我∈{1,…,K}Ri(t)+q2 log tTi(t-1) 否则(2.1),其中“Ri(t)”是资产i和召回Ti(t)的经验平均回报率- 1) 是过去t期间选择的时间资产i的数量- 1试验。Auer等人【11】提供的定理2.1证明了UCB1的最优性。定理2.1。(Auer et al.,2002)对于平均回报率在支持度[0,1]内的所有K>1资产,任何n次试验后UCB1算法的遗憾满足esbξ(n)≤Xi:ui<u*对数nu*- ui+1 +π“KXi=1u*- ui#其中,recalluiis是资产i和u的平均回报*= 最大{u,…,uK}。除了[Ri,t | Ri,1,…,Ri,t]之外,证明没有对资产收益的依赖性和分布作出假设-1] =ui。因此,通过缩放值,我们可以达到最佳状态。此外,我们可以使用未选择资产的历史回报和观察到的回报来进一步改善绩效,但我们在此不讨论细节。让ei∈RKbe是条目i上的单个1和其他条目上的0的向量。根据Eq。

13
大多数88 在职认证  发表于 2022-6-1 08:32:49
(2.1)为ωMtdef=eIt*(2.2)现在,让我们通过找到达到条件风险价值全局最小值的投资组合,将风险意识纳入我们的算法中。我们根据Artzner等人【40】和Bauerle&Rieder【41】定义了风险度量和相关属性。定义2.1。让(Ohm, F、 P)是概率空间,用L表示(Ohm, F、 P)可积随机变量集,其中(Ohm, F、 P)代表投资组合回报。A函数ψ:L(Ohm, F、 P)→ R被称为风险度量。定义2.2。假设ψ是一个风险度量,我们说ψ是一个一致的风险度量,如果对于所有X,X∈L(Ohm, F、 P),c∈R、 和d∈R∪ {0},满足o平移不变性:ψ(X+c)=ψ(X)- co次加性:ψ(X+X)≤ψ(X)+ψ(X)o正同质性:ψ(dX)=dψ(X)o单调性:X≤十、=>ψ(X)≥ψ(X)RSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .定义2.3。让X∈ L(Ohm, F、 P),在置信水平β下风险度量值为X∈ (0,1)定义为asV aRβ(X)def=inf{X∈R:P(x+x<0)≤1.- β} 此外,风险度量在置信水平γ下的条件风险价值∈ (0,1)定义为asCV aRγ(X)def=1- γZγV aRβ(X)dβ在文献中,上述风险度量有时用组合损失变量表示,即正值表示损失,负值表示收益。我们注意到这些定义是等效的。直觉上,风险值表示在一定置信水平下的最大损失阈值,条件风险值是指超过该阈值的条件预期损失。

14
能者818 在职认证  发表于 2022-6-1 08:32:52
尽管风险价值在实践中得到了更广泛的应用,但它不符合某些数学特性,如次加性,这与马科维茨的现代投资组合理论相矛盾,并意味着多元化可能不会降低投资风险。因此,这不是一个连贯的风险衡量标准。另一方面,P flug[42]证明了条件风险值是一致的,并满足一些额外的性质,如一阶随机优势(FSD)和二阶单调优势的凸性、单调性。定理2.2。(P flug,2000)条件风险价值是一个连贯的风险度量。因此,我们希望使用浓度γ级的条件风险值作为风险度量,将风险降至最低。我们记得W={u∈ RK+:u>1=1}是一组可能的投资组合。在每次试验t中,学习者希望解决以下优化问题Minimizeu∈WCV aRγ(u>Rt)注意,asγ→ 0时,问题变为最小化预期损失,且为γ→ 它使最坏的结果最小化。在本研究中,我们使用γ=0.95。Rockafellar和Uryasev【43】为解决这一问题提供了一种方便的方法。回想一下,我们假设历史回报和当前回报遵循相同的分布,让p(Rt)为密度。定义性能函数asFγ(u,α)def=α+1- γZRt∈RKh公司-u> Rt公司- αi+p(Rt)dRtwhere[m]+def=max{m,0}。我们在Rockafellar&Uryasev[43]中证明了以下定理。定理2.3。(Rockafellar和Uryasev,2000)u上CV aRγ(u>Rt)的最小化∈ W相当于Fγ(u,α)在所有(u,α)对上的最小化∈ W×R。

15
大多数88 在职认证  发表于 2022-6-1 08:32:55
此外,由于Fγ(u,α)是关于(u,α)的凸,因此损失函数-u> 关于u和W的Rtis凸是一个凸集,由于线性,Fγ(u,α)的极小化是凸规划的一个例子。此外,由于密度p(Rt)未知,我们希望不仅使用历史回报,还使用在学习过程中获得的知识来近似性能函数。从收到的Hi,1,嗨,δ对于所有i,我们提取了我们的资产H的历史回报,Hδ∈RK。让R,Rt公司-1be t- 1迄今为止观察到的收益试验,试验t处Fγ(u,α)的近似值为以下凸和分段线性函数Fγ(u,α,t)def=α+(δ+t- 1)(1 - γ) “δXs=1- u> Hs公司- α++t型-1Xs=1- u> 卢比- α+#. (2.3)注意,近似函数也是当前试验t的一个函数,hencewe添加了一个额外的参数,并将其表示为aseFγ(u,α,t)。随着学习者不断进步,她积累了数据信息,并获得了越来越精确的近似值。Asrsos。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .结果,通过凸规划求解条件风险值的最小化,并生成以下最优解。在每次试验t中,根据公式(2.3)构建的风险意识投资组合为ωCtdef=arg min(u,α)∈W×ReFγ(u,α,t)(2.4)现在我们已经找到了(2.2)的单资产多武装匪徒投资组合和(2.4)的风险感知投资组合。请注意,它们是动态的,并根据学习者积累的知识进行更新。

16
mingdashike22 在职认证  发表于 2022-6-1 08:32:58
对于每个试验t,学习者将其与系数λ结合∈ [0,1]形成平衡投资组合ω*tdef=λωMt+(1- λ) ωCt(2.5)尤其是λ是投资于单一资产多武装匪徒投资组合的财富比例,1- λ是投资于风险意识投资组合的比例。λ的值表示学习者的风险偏好。Asλ→ 1,我们的算法恢复到UCB1策略,其中λ→ 0,则成为条件风险值的最小化。因此,通常讨论的报酬和风险之间的权衡在λ的选择中进行了说明。最后,下面的算法1总结了我们的顺序投资组合选择算法。算法1:我们提出的顺序投资组合选择算法输入:K,γ,λ根据第3.1节从市场中选择K个外围资产;对于t=1,N计算单资产多武装匪徒投资组合ωMtby(2.2);通过(2.4)计算风险感知投资组合ωCtat置信水平γ;选择组合投资组合ω*乘以系数λ乘以(2.5);观察返回Rt并更新(2.2)和(2.4)的累积知识;获得投资组合奖励ω*t> Rt;结果在这一部分中,我们设计了实验,并将所提出的算法(见算法1)的性能与几个基准进行了比较。(a) 蒙特卡罗模拟方法为了简单起见,我们将股票视为资产,并采用Black-Scholes模型[44]将股票价格模拟为几何布朗运动(GBM)路径。作为诺贝尔奖得主模型,它提供了一个偏微分方程,通过计算初始财富来为欧洲期权定价,从而完美对冲该期权的空头头寸。基础资产通常是astock,其建模遵循几何布朗运动。

17
可人4 在职认证  发表于 2022-6-1 08:33:01
虽然这一假设在现实中可能并不完美,但它提供了一种非常方便且广泛使用的方法来模拟任意数量的股票路径。出于我们的目的,由于我们从未对资产回报的依赖性做出任何假设,我们考虑股票路径可以相互关联的一般情况,因为金融市场几乎总是如此。我们使用了类似于第四章的定义,并在下面描述了我们的方法。RSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .定义3.1。让(Ohm, F、 P)是概率空间。如果股票价格Pi(t)满足以下随机微分方程dpi(t)=αiPi(t)dt+σiP(t)dWi(t),其中Wi(t)是布朗运动、αiis漂移和σiis波动,则称其遵循几何布朗运动。定义3.2。用几何布朗运动建模的两条股票路径Pi(t)和Pj(t)是相关的,如果它们的相关布朗运动满足某些非零常数ρi,j的ydwi(t)dWj(t)=ρi,j·dt∈[-其中ρi,i=ρj,j=1。提案3.1。对于满足dWi(t)dWj(t)=ρi,j·dt的两个相关股票价格Pi(t)和Pj(t),以下性质成立:oE[Wi(t)Wj(t)]=ρi,j·toCov[Wi(t),Wj(t)]=ρi,j·toCov[σiWi(t),σjWj(t)]=σiσjρi,j·t,其中σi和σjare分别是Pi(t)和Pj(t)的波动参数。证据我们证明了第一个主张,其他主张在经过一些计算后立即得到证明。通过在Shreve【45】中找到的It^oDoeblin公式,我们有d(Wi(t)Wj(t))=Wi(t)dWj(t)+Wj(t)dWi(t)+ρi,j·dtintegration,我们有Wi(t)Wj(t)=ZtWi(t)dWj(t)+ZtWj(t)dWi(t)+ρi,j·tb通过It积分的鞅性质,我们只需将两侧的期望值取为[Wi(t)Wj(t)]=ρi,j·t。回想一下,我们有K股价P(t)。

18
mingdashike22 在职认证  发表于 2022-6-1 08:33:05
,PK(t)由相关几何布朗运动建模。通过定义,它们必须满足以下两个方程:sdpi(t)Pi(t)=αidt+σidWi(t),(3.1)和dwi(t)dWj(t)=ρi,j·dt(3.2)。特别是,方程(3.1)的解可以表示为如下【46】。对于任何时间u<l,我们有Pi(l)=Pi(u)·exp{(αi-σi)(l- u) +σi(Wi(l)- Wi(u))}(3.3)我们首先想用独立变量来表示标度相关布朗运动σiWi(t)。根据命题3.1,我们得到以下瞬时协方差矩阵Θ=σσσρ1,2. . . σσKρ1,Kσσρ2,1σ。σσKρ2,K。。。。。。。。。。。。σKσρK,1σKσρK,2。σK由于Θ必须是对称且正定义的,因此它有一个平方根,我们应用Choleskydecomposition来查找矩阵a,使得AAT=Θ。据史莱夫(Shreve)[45]所述,存在Krsos。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .独立布朗运动X(t),XK(t),使得σiWi(t)=KXm=1Ai,mXm(t),然后等式(3.1)变为Pi(t)Pi(t)=αidt+KXm=1Ai,mdXm(t)(3.4)和等式(3.3),在任何时间u<lPi(l)=Pi(u)exp{(αi-σi)(l- u) +KXm=1Ai,m(Xm(l)- Xm(u))}(3.5),因为m的每个布朗运动Xm(t)∈ 上面的[1,K]是独立的,增量xm(l)- Xm(u)为高斯分布,平均值为0,方差为l- u、 设Z(t)=(Z(t),ZK(t))>最佳标准多元高斯公式(3.5)becomesPi(l)=Pi(u)exp{(αi-σi)(l- u)+√l- uKXm=1Ai,mZm(l)}(3.6),因此,每次我们都可以方便地从Z(t)生成一个样本来计算价格增量。具体而言,公式(3.6)得出了以下递归算法,该算法也可以在Glasserman中找到【46】。

19
kedemingshi 在职认证  发表于 2022-6-1 08:33:08
对于0=t<t<···<t∞我们有Pi(ts+1)=Pi(ts)·exp{(αi-σi)(ts+1- ts)+pts+1- tsKXm=1Ai,mZm(ts+1)}还注意到,当路径独立时,dWi(t)dWj(t)=δi,jdt,其中δi,jis theKronecker delta函数,协方差矩阵是对角的。在这种特殊情况下,在一维空间中分别计算K条路径是等价的。出于我们的目的,我们首先找到一些合适的协方差矩阵,并按照上述算法生成K个价格路径。然后,我们将总时间范围统一划分为δ+N个试验,并使用每个试验开始和结束时的价格来计算回报率,这在前面定义为对数价格比。我们在这些数据上运行我们的顺序投资组合选择算法,并将其与四个基准投资组合进行比较,即UCB1(2.2)、风险感知投资组合(2.4),-贪婪和同等权重的投资组合。(b) 模拟结果在我们反复生成价格路径并比较性能后,我们可以看到结果与我们的预测非常一致(图2)。UCB1投资组合几乎总是获得最多的累积财富,但其路径变化较大。另一方面,风险awareportfolio实现了相对较低的累积财富,但也具有较低的变化。因此,我们的组合投资组合在最大化回报和最小化风险这两个极端之间达成了一个平衡点。例如,图2a-2c展示了一个典型的模拟,其中图2a展示了SK=5个几何布朗运动路径,图2b展示了UCB1相对于贪婪,图2c显示了N=200次试验结束时的累积财富。

20
何人来此 在职认证  发表于 2022-6-1 08:33:10
初始财富为1且λ=0.9时,UCB1的累积财富为2.1615,组合投资组合的累积财富为2.1024,组合投资组合的累积财富为1.9168-贪婪,风险意识投资组合为1.6355,等权投资组合为1.4640。此外,我们观察到,当市场波动且不同股票路径预期相似时,UCB1政策需要更多的试验才能达到最优(图2d-2f)。在这种情况下,具有风险意识的投资组合实现了最大的累积财富,其路径变化也同样较小。与图2a-2c所示的模拟不同,在图2a-2c中,几何布朗运动的挥发参数在区间[0.02,0.025]内有界,我们不知道。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .wen jian jian deftimetimetimetimetimetimetimefigure 2。组合顺序投资组合选择算法可以实现风险与收益的平衡。面板(a)和(c)显示了基于几何布朗运动的模拟股票路径。面板(b)和(d)绘制了两种投资组合选择算法的性能,UCB1与ε贪心。小组(c)和(e)将我们的顺序投资组合选择算法获得的累积财富与其他四个投资组合选择算法基准进行了比较,该算法将单资产多臂bandit投资组合(2.2)和风险感知投资组合(2.4)相结合。为了量化和比较波动性在投资组合选择算法性能中的作用,我们给出了左面板(a)(b)(c)的低波动性和右面板(d)(e)(f)的高波动性的模拟结果。参数:漂移项αiis的相同向量(0.04、0.035、0.08、0.02、0.03),用于模拟(a)和(d)中的股票路径。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-28 16:07