|
多智能体交互定理4.2。在两个代理的环境中,代理的风险规避水平λ和代理的风险规避水平λ,其中λ6=λ,并且每个代理都有相同数量的股票要清算,有偏轨迹x(λ)和x(λ)将满足x*(λ) 6=x(λ),x*(λ) 6=x(λ),其中x*(λ) andx*(λ) 是市场上唯一的参与者时的最佳交易轨迹。评论在多代理环境中,每个代理都具有风险规避水平λj,实际交易轨迹x(λj)将偏离最佳交易轨迹。证据根据Almgren和Chriss模型(Almgren和Chriss,2001)的(4),V(x)=σNXk=1τxkis与临时或永久价格变化无关,xktk最优交易轨迹的形式为:xk=sinh(κ(λ)(T- tj)sinh(κ(λ)T)X,其中κ(λ)=λση(1-γτ2η).设总库存大小和代理,每个都有x个共享,效用函数u(x)=E(x)+λ*V(x)是参数x的二次函数,xN公司-1,其中λ*是综合风险规避水平,xis是交易轨迹,也可以写成:U(x)=E(x)+λV(x)+λV(x),其中x,xis分别是代理1、2的交易轨迹。然后:Uxk=2τ(λ+λ)σxk- ^1ηxk-1.- 2xk+xk+1τ,和Uxk=0等于τ(xk-1.- 2xk+xk+1)=(¢κ*)xk(8)带κ*=(λ+λ)ση(1 -γτ2η),用于清算策略分析的多智能体深度强化学习,其中tilde表示anO(τ)校正;asτ→ 0,我们有κ→ κ. 那么,我们知道(8)的解是:xk=sinh(κ*(T- tk)sinh(κT)X6=sinh(κ(λ)(T- tk)sinh(κ(λ)T)X+sinh(κ(λ)(T- tk)sinh(κ(λ)T)X,其中右侧是剩余部门的总数,不等于最优交易轨迹下的剩余股份总数,这是函数的左侧。换句话说,他们的新贸易轨迹将是有偏差的。5.
|