楼主: 能者818
784 10

[量化金融] 在复杂自适应模型的不同尺度下推断agent目标 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5640
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-2 17:20:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Inferring agent objectives at different scales of a complex adaptive
  system》
---
作者:
Dieter Hendricks, Adam Cobb, Richard Everett, Jonathan Downing and
  Stephen J. Roberts
---
最新提交年份:
2017
---
英文摘要:
  We introduce a framework to study the effective objectives at different time scales of financial market microstructure. The financial market can be regarded as a complex adaptive system, where purposeful agents collectively and simultaneously create and perceive their environment as they interact with it. It has been suggested that multiple agent classes operate in this system, with a non-trivial hierarchy of top-down and bottom-up causation classes with different effective models governing each level. We conjecture that agent classes may in fact operate at different time scales and thus act differently in response to the same perceived market state. Given scale-specific temporal state trajectories and action sequences estimated from aggregate market behaviour, we use Inverse Reinforcement Learning to compute the effective reward function for the aggregate agent class at each scale, allowing us to assess the relative attractiveness of feature vectors across different scales. Differences in reward functions for feature vectors may indicate different objectives of market participants, which could assist in finding the scale boundary for agent classes. This has implications for learning algorithms operating in this domain.
---
中文摘要:
我们引入了一个框架来研究金融市场微观结构在不同时间尺度上的有效目标。金融市场可以被视为一个复杂的适应系统,在这个系统中,有目的的主体集体地、同时地创造和感知与其交互的环境。有人建议,多个代理类在此系统中运行,具有自上而下和自下而上因果关系类的非平凡层次结构,每个层次具有不同的有效模型。我们推测,代理类实际上可能在不同的时间尺度上运行,从而对相同的感知市场状态做出不同的反应。给定特定于规模的时间状态轨迹和根据总体市场行为估计的行动序列,我们使用反向强化学习来计算每个规模上的聚合代理类的有效奖励函数,从而评估不同规模上特征向量的相对吸引力。特征向量奖励函数的差异可能表明市场参与者的目标不同,这有助于找到代理类的规模边界。这对在该领域中运行的学习算法有影响。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Inferring_agent_objectives_at_different_scales_of_a_complex_adaptive_system.pdf (1.74 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:agent Age Participants Implications SIMULTANEOUS

沙发
能者818 在职认证  发表于 2022-6-2 17:20:13
在复杂自适应系统的不同尺度下推断agent目标。亨德里克斯*A、 Cobb R.Everett J.Downing S.J.Roberts机器学习研究小组牛津定量金融学院牛津大学*通讯作者:迪特尔。hendricks@eng.ox.ac.ukAbstractWe引入一个框架来研究金融市场微观结构在不同时间尺度下的有效目标。金融市场可以被视为一个复杂的适应系统,在这个系统中,有目的的主体集体地、同时地创造和感知他们与之交互的环境。有人建议,该系统中有多个代理类,具有自上而下和自下而上因果关系类的非平凡层次结构,每个层次都有不同的有效模型。我们推测,代理类实际上可能在不同的时间尺度上运行,因此对相同的感知市场状态做出不同的反应。给定规模特定的时间状态轨迹和从总市场行为估计的行动序列,我们使用反向强化学习计算每个规模的总代理类的有效奖励函数,使我们能够评估不同销售中特征向量的相对吸引力。特征向量奖励函数的差异可能表明市场参与者的目标不同,这有助于确定代理类的规模边界。这对在该领域中运行的学习算法有影响。1简介股权金融市场由多个通过集中电子交易所运作的竞争代理组成,在时间和代理类别之间产生非线性互动。

藤椅
mingdashike22 在职认证  发表于 2022-6-2 17:20:16
投资者利用其对资产动态的理解来确定购买和出售决策的时间,以获得财务收益;交易员利用其对市场动态的理解来规划交易,并将实现投资决策的成本降至最低;做市商利用其对投资者需求的理解来从流动性提供中获利。市场微观结构领域[1]研究了该系统在日内时间尺度上的价格形成动力学,考虑了参与者的机械规则、监管监督和社会行为如何相互作用以体现观察到的时间序列。复杂性经济学(Complexity Economics)[2]范式试图通过复杂适应系统的视角来解释观察到的行为,在复杂适应系统中,竞争主体不断根据他们相互创造的观察状态来调整他们的行为和策略。Wilcox和Gebbie[3]进一步提出了一种自下而上和自上而下因果关系的机制,并通过噪声项建立了控制行为体和层间互动的具体有效模型。每个级别的参与者以不同的方式感知系统,这使得使用相同有效模型的层次结构来捕获系统复杂性的做法无效。我们感兴趣的是在该领域开发学习算法,在竞争代理的背景下,理解特定规模的状态表示是确保相关特征可以被利用的关键,并且有用的学习可以比系统的自然时间尺度更快地进行。Galla、Farmer和Sanders[4,5]研究了复杂游戏中agent学习的性质,使用经验加权吸引(EWA)来评估渐近学习的倾向。

板凳
何人来此 在职认证  发表于 2022-6-2 17:20:19
他们在第31届神经信息处理系统会议(NIPS 2017)上展示了理解代理回报(奖励)相关性的重要性,会议地点:美国加利福尼亚州长滩。arXiv:1712.01137v1【q-fin.TR】4 Dec 2017设置学习率,以确保学习可行,避免混乱状态。本研究旨在了解不同时间尺度下竞争主体的情况,探讨尺度对该领域学习策略的重要性。我们使用反向强化学习(IRL)来计算股票市场微观结构不同规模下的有效回报函数,使用规模特定的时间状态轨迹和根据总体市场行为估计的行动序列。这使我们能够识别有吸引力的状态,并评估相关特征向量在不同尺度上的吸引力。这是了解该系统不同规模的代理类的相对目标的第一步。2方法2.1状态吸引力逆强化学习SIRL旨在推断马尔可夫决策过程(MDP)中的奖励函数,该过程由元组=hS,a,P,γ,Ri定义,描述状态空间、动作空间a、转移函数P、贴现因子γ和回报。鉴于可以通过观察代理人的行为收集样本状态行动空间轨迹,目标是找到一个奖励函数,诱导代理人遵循与专家轨迹匹配的轨迹。虽然已经提出了许多IRL算法([6,7,8,9]),但我们将使用最大熵(MaxEnt)IRL[10],这代表着研究路径上概率分布的一种趋势。Ziebart等人。

报纸
可人4 在职认证  发表于 2022-6-2 17:20:23
利用最大熵原理为线性奖励函数r=θ>fζ选择信息量最小的参数集,该函数是状态-动作轨迹fζ的线性组合,与agent的观察轨迹和学习者行为之间的特征期望相匹配。这个匹配方程XPathζiP(ζi)fζi=f(1)提供了最大熵的约束条件,其中f=1mPifi是移动轨迹的平均经验特征计数。因此,将沿轨迹的特征映射求和得到fζi=Psj∈ζfsj。Ziebart等人通过spaceP(ζi |θ,T)评估轨迹上的概率分布,该概率分布给出了具有相同回报、相同概率的轨迹,并赋予更高回报指数更高的偏好。请注意,这是MDP的过渡模型。最佳参数集θ*isthen通过最大化似然L(θ)获得,即θ*= argmaxθL(θ)=argmaxθXexampleslog P(|ζ|θ,T)(2)由于此函数对于确定性MDP是凸函数,我们可以使用梯度优化方法,要求了解给定的梯度L(θ)=f-XζP(¢ζ|θ,T)fζ=¢f-XsiDsifsi。(3) 该梯度表示观察到的经验预期特征计数与学习者预期特征计数之间的差异。优化过程中的难点在于计算预期状态访问频率的值,Dsito计算梯度。Ziebart等人【10】给出了Fordsia算法的详细信息。综上所述,它包括向后传递以计算EP(ζi |θ,T),然后向前传递以计算预期状态访问频率。

地板
何人来此 在职认证  发表于 2022-6-2 17:20:26
请注意,大视界用于计算接近MDP有限时间视界的状态频率。我们将使用Matthew Alger提供的MaxEnt IRL实现【11】。2.2确定时间状态轨迹Shendricks等人【12】提出了一种从股市微观结构特征中检测和在线估计日内时间状态的方法。他们在不同的日历时间尺度上发现了一个有趣的系统行为层次结构,结果表明,每个尺度上的行为可能有不同的通用性等级。该方法与q-state Potts2model相似,开发了一种无监督聚类技术,与在复杂系统中发现亚稳态对象配置相一致。根据观察到的交易所主要股票的交易价格、价差、成交量和成交量不平衡特征,将时间段分为不同的状态。通过用于在线状态检测和分配的关联状态签名向量(SSV),识别重要状态。图1说明了60分钟和30分钟时间尺度的时间状态和相关特征向量。每个节点表示一个月内的一个时间段,节点着色表示一天中的时间,节点连通性表示集群(状态)成员身份。60分钟状态30分钟状态60分钟特征向量30分钟特征向量图1:(上图)每个节点代表一个时间段,彩色底纹表示一天中的时间(上午=绿色,午餐=黄色,下午=红色),节点连接度表示特定状态。(以下)各时间状态下各成员期内交易价格、价差、交易量和报价量的平均变化。我们将使用[12]中的方法,基于SSV状态分配,构建不同日历尺度下的时间状态轨迹。

7
能者818 在职认证  发表于 2022-6-2 17:20:29
集群成员指数的时间序列确定了每个尺度上的相关状态轨迹。考虑到将不同规模的代理分类的目标,我们将使用每个规模的平均价格回报序列来确定相关的行动。其动机是,如果某种程度上的行为导致正(负)价格回报,这可能表明该类别的净买入(卖出)决策。因此,我们将使用平均价格回报的符号将动作分配给三个状态之一,{买入,卖出,中性}。3个实验数据和行动轨迹是根据2012年11月1日至2012年11月30日约翰内斯堡证券交易所(JSE)42只股票的交易记录和账面最高报价计算得出的,数据来源于汤森路透交易记录(TRTH)数据库。该数据在所考虑的尺度上重新取样。我们对每种股票使用四个特征:i)交易价格的变化,ii)报价读取(要价-出价),iii)交易量和iv)报价量不平衡(要价-出价量)。结果图2显示了四个候选时间尺度(5、15、30和60分钟)下每个状态的特征向量和估计奖励函数。有趣的是,低利差状态是不利的,这可能是因为当市场具有高度流动性时,机会较少,而高利差状态通过市场错位提供了盈利机会。在对相关奖励和特征向量进行检查后,虽然在不了解基本事实的情况下,很难对这些结果做出合理的解释,但在不同的尺度上,吸引力似乎存在差异。图3显示了相似特征向量在不同尺度上的相对回报。

8
大多数88 在职认证  发表于 2022-6-2 17:20:33
我们使用simpleK均值聚类算法,根据特征向量相似度将所有状态分为6类。然后,我们对每个集群中相同规模的所有州的(标准化)奖励进行求和。这允许我们考虑给定相同特征向量的每个尺度的净回报。节点大小表示规模(60分钟=大,5分钟=小),颜色表示奖励(红色=负,绿色=正)。集群1-5都显示出积极和消极的回报,这提供了一些证据,表明代理对不同尺度上观察到的特征的反应不同。使用相对聚类重心扩散和体积不平衡来解释奖励提供了一些直觉。对于集群1,负的交易量失衡和负价差可能意味着更大数量的积极购买订单,这可能会对以更高价格购买产生短期负面影响,但如果股票持有时间更长,则资产价值可能会出现净收益。对于集群3,我们看到更大的负量不平衡和负价差,这在5分钟尺度上似乎是有利的,但在更长的时间尺度上则是不利的。这表明,某些特征的严重程度可能会影响该州的吸引力,至少在将总体买卖行为作为行动来衡量时是如此。对于集群5,正的交易量不平衡和负的价差表明大量的侵略性销售订单。

9
mingdashike22 在职认证  发表于 2022-6-2 17:20:36
这在5分钟内可能是积极的,短期卖出更容易匹配,但积极的询价增加可能转化为价格下行压力,导致更高级别的负面回报。对于集群6,负的交易量不平衡和正的价差可能使代理商能够以更低的价格购买更多的股票,这种不平衡会导致所有规模的价格进一步升值。状态特征向量和估计的奖励函数-按分布特征值420-20 1 2 3 4 5 6 8 9 10 11 12 14 16 18 19 20 21 22 23 24 25估计的回报特征值20-20 1 2 3 4 5 6 7 8 9 10 12 14估计的回报特征值2.50.0-2.5估计的回报0 1 2 4 6 7 8 9 10 12 14 16 19 20 22 24 25特征值20-2估计的回报0 1 3 4 6 8 910 11 12 135分钟15分钟30分钟60分钟价差量量量不平衡特征图2:此图显示了每个州的特征向量(点)和估计奖励函数(条),在4个候选时间尺度(5、15、30和60分钟)下,4+交易量不平衡-价差+价差-交易量不平衡低价买入订单的更多流动性被迫以更低的价格卖出可能会继续下降被迫以更高的价格买入可能会继续增加以更高价格卖出订单的更多流动性每个尺度上的估计回报,按特征向量相似性分组图3:该图说明了相似特征向量在不同尺度上的相对回报。

10
何人来此 在职认证  发表于 2022-6-2 17:20:39
Nodesize表示规模(最小=5min,最大=60min),节点颜色表示奖励(红色=低负,绿色=高正),节点根据特征向量相似度进行聚类,聚类根据聚类质心的相对扩散和体积不平衡特征值进行定位。4讨论和未来工作我们提供了一个框架,该框架允许我们在复杂自适应系统的不同尺度上研究特征向量的相对吸引力。虽然我们对观察到的特征向量吸引力提出了合理的解释,但还需要更多的工作来分析来自估计奖励函数的诱导政策,并评估这是否表明了特定的目标或跨尺度的冒险行为。最终,这种方法有助于评估代理类是否存在伸缩基础,以便更好地通知学习算法规范。这可能会形成一个分层强化学习框架,在金融市场中进行多尺度学习,以探索不同尺度的因果关系层次。进一步的工作将评估一系列完整的事件时间尺度,与机器算法处理信息的方式相一致,以明确高频(算法)做市、机器交易、人力交易和投资决策之间的界限。参考文献【1】M.O\'Hara。市场微观结构理论。布莱克威尔出版社,1998年。[2] W.B.亚瑟。复杂性和经济性。牛津大学出版社,英国牛津,2014年。[3] D.Wilcox和T.Gebbie。金融经济学中的等级因果关系。工作文件,可从SSRN获取:https://ssrn.com/abstract=2544327, 2014.[4] T.Galla和J.D.Farmer。学习复杂游戏的复杂动力学。《美国国家科学院院刊》,110(4):1232–12362013。[5] J.B.T.桑德斯、J.D.法默和T.加拉。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 02:18