楼主: 大多数88
1323 27

[量化金融] 风险感知的多臂Bandit问题及其在投资组合中的应用 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.7797
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-1 08:32:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Risk-Aware Multi-Armed Bandit Problem with Application to Portfolio
  Selection》
---
作者:
Xiaoguang Huo and Feng Fu
---
最新提交年份:
2017
---
英文摘要:
  Sequential portfolio selection has attracted increasing interests in the machine learning and quantitative finance communities in recent years. As a mathematical framework for reinforcement learning policies, the stochastic multi-armed bandit problem addresses the primary difficulty in sequential decision making under uncertainty, namely the exploration versus exploitation dilemma, and therefore provides a natural connection to portfolio selection. In this paper, we incorporate risk-awareness into the classic multi-armed bandit setting and introduce an algorithm to construct portfolio. Through filtering assets based on the topological structure of financial market and combining the optimal multi-armed bandit policy with the minimization of a coherent risk measure, we achieve a balance between risk and return.
---
中文摘要:
近年来,顺序投资组合选择在机器学习和定量金融界引起了越来越多的兴趣。作为强化学习策略的数学框架,随机多臂bandit问题解决了不确定性条件下顺序决策的主要困难,即探索与开发的困境,因此与投资组合选择有着天然的联系。在本文中,我们将风险意识融入到经典的多武装bandit环境中,并引入了一种构建投资组合的算法。通过基于金融市场拓扑结构对资产进行过滤,并将最优多臂强盗策略与一致风险测度最小化相结合,实现了风险与收益的平衡。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--

---
PDF下载:
--> Risk-Aware_Multi-Armed_Bandit_Problem_with_Application_to_Portfolio_Selection.pdf (3.55 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:bandit 投资组合 风险感知 band BAN

沙发
mingdashike22 在职认证  发表于 2022-6-1 08:32:16
RSO。royalsocietypublishing。orgResearchArticle提交给《杂志》主题领域:数学建模、应用数学关键词:多武装匪徒、在线学习、投资组合选择、图论、风险意识、风险条件价值通信作者:晓光霍伊邮件:xh84@cornell.eduFengFue邮件:fufeng@gmail.comRisk-Aware Multi-Armedbindit Problem with Application to Portfolioselection肖光Huoand Feng Fu2,3康奈尔大学数学系,伊萨卡,纽约14850,美国数学系,达特茅斯学院,汉诺威,NH 03755,美国生物医学数据科学系,黎巴嫩达特茅斯盖塞尔医学院,NH 03756,近年来,USASequential portfolio selection在机器学习和定量金融领域吸引了越来越多的兴趣。作为强化学习政策的数学框架,托卡斯特多武装匪徒问题解决了不确定性条件下顺序决策的主要困难,即探索与开发的两难境地,因此为投资组合选择提供了一种自然的联系。本文将企业风险意识引入经典的多武装匪徒环境中,并引入一种算法来构建投资组合。通过根据金融市场的拓扑结构过滤资产,并将最优多武装匪徒政策与一致风险度量最小化相结合,实现风险与回报之间的平衡。简介投资组合选择是金融行业的一个热门研究领域,从学术研究人员到基金经理。这个问题涉及到确定投资组合中持有的资产的最佳组合,以实现投资者的目标,例如最大化相对于某些风险度量的累积回报。

藤椅
可人4 在职认证  发表于 2022-6-1 08:32:20
在金融界,解决这个问题的传统方法可以追溯到1952年马科维茨的开创性论文[1],该论文介绍了均值方差分析,也称为现代投资组合理论(MPT),并建议选择 2014作者。由英国皇家学会根据《创造性公共财产归属许可证》的条款出版http://creativecommons.org/licenses/by/4.0/,允许不受限制地使用,前提是原始作者和来源已被记入贷方。RSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .最大化由方差量化的特定风险水平的预期回报。另一方面,数学和计算机科学界已经开发了顺序投资组合选择模型。例如,Cover的universal portfolio strategy[2]、Helmbold的Multiplicative update portfolio strategy[3]、以及综合调查见Li&Hoi[4]。近年来,随着人工智能和机器学习方法取得了前所未有的成功,AlphaGo击败了世界冠军,OpenAI的机器人击败了专业的Dota玩家,基于机器学习的投资组合选择策略也出现了更具创造性[5,6]。包括投资组合选择,许多实际问题,如临床试验、在线广告和机器人技术,都可以建模为不确定性下的顺序决策。在这一过程中,在每次试验中,学习者都面临着一个权衡:雄心勃勃地获取新知识,还是保守地利用现有知识,这通常被称为探索与利用的两难境地。

板凳
何人来此 在职认证  发表于 2022-6-1 08:32:23
随机多臂bandit问题通常被理解为一个单状态马尔可夫决策过程(MDP),它为研究顺序决策提供了一个非常直观的数学框架。此设置的抽象包括一组K台老虎机和一系列N次尝试。每次试验t=1,N、 学员选择使用其中一种机器∈{1,…,K}并从相应的固定但未知的概率分布νIt中随机抽取奖励RIt,t,其平均值为uIt。在经典设置中,假设同一台机器在不同时间内的随机奖励是独立且分布相同的,不同机器的奖励也是独立的。学习者的目标是制定一项政策和分析算法,规定在每次试验中使用哪台机器,以最大限度地提高累积回报。衡量政策绩效的一个重要指标是经过一些n次试验后的遗憾,其定义为ξ(n)def=max我∈[1,K]nXt=1Ri,t-nXt=1RIt,t.(1.1)。然而,在随机模型中,比较期望中的奖励和使用伪后悔更为直观[8]。设Ti(n)为机器i在前n次试验中播放的次数,并设u*= 最大{u,…,uK}。然后,bξ(n)def=nu*- EnXt=1位,t=X1≤我≤K、 ui<u*(u*- ui)E[Ti(n)](1.2)因此,学习者最大化累积回报的目标相当于最小化后悔。总后悔的最佳可能增长率的渐近下界由I和Robbins[9]证明,即O(对数n),系数由每台机器的次优性和Kullback-Leibler散度确定。从那时起,人们提出了各种在线学习策略[10],其中UCB1策略是在Auer et al。

报纸
何人来此 在职认证  发表于 2022-6-1 08:32:26
[11] 被认为是最优的,将在章节方法和模型中详细介绍。虽然学术界对经典的多武装匪徒进行了深入的研究,但提出了该问题的一些变体来模拟不同的真实场景。例如,Agrawal和Goyal[12]考虑了具有线性奖励函数的上下文bandit,并分析了Thompson采样算法的性能。Koulouriotis和Xanthopoulos【13】研究了机器奖励分布在固定时间变化的非平稳环境。一个更重要的变量是风险意识设置,学习者在目标中考虑风险,而不是简单地最大化累积回报。这一变体与投资组合选择问题密切相关,在投资组合选择问题中,风险管理是一个不可或缺的问题,已经在几篇论文中讨论过。例如,Sani等人[14]研究了学习者的目标是最小化定义为σ的均值方差的问题- ρu并提出了两种算法,MV-LCB和ExpExp。在类似的背景下,Vakili和Zhao【15】对Sani等人提出的算法的性能进行了更深入的分析【14】。此外,Vakili&Zhao【16】通过考虑时间范围结束时总回报的平均方差和风险值,扩展了该设置。在更普遍的情况下,Zimin等人【17】将目标设定为Meansos的函数。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .方差f(u,σ)定义了在特定条件下实现理想性能的Д-LCB算法。此外,Galichet等人。

地板
大多数88 在职认证  发表于 2022-6-1 08:32:29
[18] 选择风险条件值作为目标,并提出了MARAB算法。这些工作为我们在模型中考虑风险提供了灵感,但它们并不直接适用于投资组合选择问题,因为这些方法在每次试验中只选择最好的单机。为了解决这一问题,需要首先在初步阶段以战略和逻辑的方式选择巴斯克托夫候选投资组合。例如,Shen等人[19]使用主成分分析(PCA)选择候选投资组合,即资产收益协方差矩阵的归一化特征向量。在我们的模型中,我们首先采用图论方法过滤并选择一篮子资产,我们使用这些资产构建投资组合。然后,在每次试验中,我们将由最优多臂bandit算法确定的单资产组合与全局最小化一致风险度量(条件风险价值)的组合相结合。本文的其余部分组织如下。在“方法和模型”部分,我们描述了多武装匪徒环境下的投资组合选择问题,并详细描述了我们的方法。在结果部分,我们给出了使用该方法的仿真结果。在讨论与结论部分,我们讨论了结果,并为未来的研究提供了方向。2、方法和模型(a)问题公式在本节中,我们将经典的多臂bandit设置修改为投资组合选择模型。考虑一个拥有大量资产的金融市场,学习者从中选择一项basketof K资产进行一系列N次试验。每次试验t=1,N、 学习者选择一本书ωt=ω1,t,ωK,t>其中ωi,是资产i的重量。

7
可人4 在职认证  发表于 2022-6-1 08:32:32
由于我们只考虑长期和自我融资交易,我们必须有ωt∈W,其中W={u∈ RK+:u>1=1},1是1的列向量。然后,在试验t+1中显示资产回报,并用byRt表示=R1,t,RK,t>. 特别是,每项资产的回报率Ri,t被视为从相应概率分布νi中随机抽取的平均值ui,可以简单地定义为对数价格比Ri,t=logPi,t+1/Pi,t, 其中,我们使用自然对数和Pi,t,Pi,t+1是试验t和t+1的价格。对于从t到t+1的交易期,学习者将收到其投资组合的ωt>RTA。因此,学习者的投资策略是从积累的知识到W的一系列N映射。我们做出以下假设。首先,我们假设在t=1的情况下,我们总是可以获得市场上每项资产i的历史回报Hi,tof,δ. 历史回报率的定义类似于价格比率的对数,但对应于投资期之前的时间范围。它们仅用于估计相关结构和风险水平。其次,我们不假设回报率在时间或资产上的依赖性。我们只在每次试验中使用t和i∈{1,…,K},Ri,t~νI和Hi,t~νi具有相对较小的δ。请注意,我们稍后使用的UCB1算法在最弱消耗下被证明是最优的,E[Ri,t | Ri,1,…,Ri,t-1] =ui,允许我们放弃classicsetting中的假设[11]。第三,交易成本和市场流动性将不予考虑。有关问题的摘要,请参见模型1。(b) 过滤资产组合构建图论(Filtering AssetsGraph theory)已广泛应用于各个学科的网络建模,其中顶点表示感兴趣的个人,边表示他们之间的交互。

8
可人4 在职认证  发表于 2022-6-1 08:32:35
例如,在进化博弈论中,图表被用来分析不同人口结构的合作动态【20–25】。在金融市场中,最小生成树(MST)是ISRSO。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .模型1:顺序投资组合选择问题参数:δ,NReceive Hi,tof each asset i for t=1,δ;筛选以选择一篮子K资产;对于t=1,N doChoose投资组合ωt=ω1,t,ωK,t>;观察Rt=R1,t,RK,t>并获得奖励ωt>Rt;End被认为是可视化资产结构的稳健方法[26],可以从经验数据中捕捉不同的市场部门[27,29,30]。出于我们的目的,由于我们拥有大量资产,我们首先要选择一篮子Kto进行投资。收回每项资产的收益为Ri,t=logPi,t+1/Pi,t, 其中,Pi、tand和Pi、t+1是试验t和t+1的价格。继Mantegna【27】和Mantegna&Stanley【28】之后,我们使用历史收益率的δ试验来寻找相关矩阵,其条目为ρi,jdef=hHiHji- HHIIHJIQ(hHii- hHii)(hHji- hHji),其中h·i是历史平均值,即市场中每个资产i的hHii=Pδt=1Hi,t。对于δsmall,我们可以利用Ledoit&Wolf[31]中的收缩方法改进我们的估计。然后,我们将两个顶点之间的度量距离定义为di,jdef=p2(1- ρi,j)。然后使用条目为di,jis的欧氏距离矩阵D计算无向图hg={V,E},其中V是表示资产的顶点集,E是表示距离的加权边集。为了从G中提取最重要的边,我们构造了最小生成树T。

9
能者818 在职认证  发表于 2022-6-1 08:32:37
特别地,T是G的子图,它连接所有顶点而没有圈,并最小化总边权重。分类顶点的一种方法是基于顶点在图中的相对位置,即centralversus-peripheral。在金融市场中,这种分类方法对系统性风险有着重大影响,系统性风险是指经济冲击导致一系列机构崩溃的风险【32】。一些实证研究表明,这种风险可能与市场相关结构的某些特征有关。例如,Kritzman等人[33]将吸收率定义为由固定数量的主成分(即协方差矩阵的特征向量)解释的总方差的分数,并表明该比率在国内和全球金融危机期间大幅增加,包括住房泡沫、网络泡沫、1997年亚洲金融危机等。Drozdz等人[34]得出了类似的结果,并指出相关矩阵的最大特征值在危机期间上升,并耗尽了总方差。因此,图论可以自然地应用于这种设置,并为管理系统性风险提供了重要的见解。特别是,Huang等人[35]在二部图上直观地模拟了系统性风险的传染过程。Onnela等人。[36]表明,资产的最小生成树在危机期间会收缩,这支持了关于相关矩阵特征值紧性的上述论点。更重要的是,Onnela等人【36】、Pozzi等人【37】和Ren等人。

10
kedemingshi 在职认证  发表于 2022-6-1 08:32:40
[38]建议对位于最小生成树外围部分的资产进行投资,可以促进多样化,减少危机期间的系统风险敞口。在我们的研究中,我们选择了30只标准普尔500指数股票,包括15家金融机构(JPM、WFC、BAC、C、GS、USB、MS、KEY、PNC、COF、AXP、PRU、SCHW、BBT、STI)和15家随机选择的其他行业公司(KR、PFE、XOM、WMT、DAL、CSCO、HCP、EQIX、DUK、NFLX、GE、APA、F、REGN、CMS)。我们使用次贷危机期间44个交易日的每日收盘价构建最小生成树,并使用等权投资组合策略研究投资外围顶点的优势。尽管如此。royalsocietypublishing。组织R.Soc。打开sci。0000000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiang jian图1。基于最小生成树的投资组合选择。所示为(a)完整图和(b)由2008年9月至2008年10月期间30只选定的标准普尔500指数股票构建的相应最小生成树。面板(c)绘制了(b)中所示14片叶子中随机选择的10个顶点的组合的性能。面板(d)比较了(a)中选择的30只标准普尔500指数股票的协方差矩阵的特征值谱与(c)中从最小生成树的外围节点随机选择的10只股票的协方差矩阵的特征值谱。股票数量很少,我们的结果同样表明,投资外围顶点可以减少金融危机期间的损失(图1)。图1(a)显示了30只股票的完整图表。图1(b)是我们按照上述方法得到的最小生成树。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-28 13:53