人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 贝叶斯交易成本分析与经纪人算法排序

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 可人4

796 22

[量化金融] 贝叶斯交易成本分析与经纪人算法排序 [推广有奖]

11楼

可人4

发表于 2022-6-14 09:52:38 |只看作者 |坛友微信交流群

所有这些特性都违反了标准回归假设，必须明确解决。贝叶斯推理在这里是正确的工具，因为它需要对所有潜在假设进行明确的陈述。8算法特定TCA回归模型交易者通常对特定经纪人执行算法的性能评估感兴趣。在这种情况下，主要问题是样本量有限。贝叶斯模型允许我们通过使用分层部分池模型来克服这个问题。建模分两个阶段进行。首先，我们构建了前一节所述的混合回归模型，其中汇总了来自算法的执行观察结果，丢弃了算法标签，并在此数据集上安装了通用TCA模型。这允许计算方程（9）、（10）和（12）中回归系数α、β和γ的后验分布。后验分布有两个相互竞争的贡献：一个是来自先验的单一贡献，另一个是来自每个观测值的似然贡献，它随观测值的数量线性增加。由于聚合样本中存在大量观测值，后验值主要由似然项控制，并且对先验参数具有鲁棒性。其次，我们使用回归（7）的部分合并版本来构建特定算法的TCA回归。系数α和γ为经纪人专用（未冷却）。尺度参数σ的异方差系数β对于所有算法都是相同的（合并），因为它们表征的是基准，而不是算法。第一阶段通用模型的后验值用作算法特定回归的先验值。马尔可夫链蒙特卡罗（MCMC）方法用于从回归系数α、β和γ的后验分布中获取样本。

使用道具举报

12楼

大多数88

发表于 2022-6-14 09:52:42 |只看作者 |坛友微信交流群

它允许使用给定订单和库存参数的非对称拉普拉斯分布（6）的预期值公式计算TCA基准π（E[y]）的预期值分布。请注意，如果某个特定代理只有少量执行，那么该方法仍然有效。在这种情况下，TCA基准E[y]的后验分布主要由通用TCA模型给出的先验分布决定。这意味着成本将是平均的，但永远不是最好的。为了获得最佳的交易成本，特定经纪人的可能性贡献应该克服通用TCA模型先验的严重性，因为它具有优异的执行质量，并且在数据样本中有足够的执行质量。使用层次模型可以将信息从一个大型聚合样本分散到一个特定算法的较小数据样本。这两个阶段的过程确保了按交易成本对算法进行排序是稳健的，即使特定算法的观测数量很小。9交易算法排名我们将算法分为两个阶段。首先，给定order（X和X）和stock（X和X）参数，我们计算每个算法的相关分数R。这里的目标是计算给定算法中，Norder和stock特征之间的距离及其相应的历史分布。马氏距离dM[维基百科：马氏距离]是点K和分布D之间距离的度量，它提供了一种方便的形式主义。我们计算了每种算法的ln x和ln x之间的距离dorderMbetween及其联合二维历史分布，以及每种算法的ln x和ln x之间的距离dstockmbeen及其二维历史分布。

使用道具举报

13楼

大多数88

发表于 2022-6-14 09:52:49 |只看作者 |坛友微信交流群

距离转换为有界z分数zrange（zrange=100* tanh（z）原始z得分）和加权和得到相关性得分R：R=worderrzrange（dorderM）+worderrzrange（dstockM）（15）这里，默认值为worderr=和wstockr=。注意，由于某些算法的攻击性的离散性，顺序参数的二维历史分布可能是多模态的。在这种情况下，距离dorderm是到最近簇的距离。接下来，我们只保留20%的原始算法按相关性排序。这确保了所选算法集在过去根据订单和库存参数的历史分布积极使用。它还提供了一个额外的保证，即参数TCA模型输出的计算接近于训练数据点的质量中心，并且TCA回归模型用于插值，但不用于外推。其次，我们计算性能得分P。绩效得分P被定义为有界z得分（zrange=100）的加权和（权重之和被归一化为1* 每个相关基准的原始z分数的tanh（z）。由于人类商人更喜欢确定性设置，我们将基准y的算法空间分布的平均值E[y]作为z分数的输入。或者，为了考虑交易成本分布的特定属性，可以使用概率分级程序。在这种情况下，交易成本不是确定性的，而是通过从算法（a）特定交易成本分布πa（E[y]）中采样的随机变量的实现来给出的。对于每个路由决策（algo wheel），根据采样的交易成本选择最佳经纪人。IS和VWAP平均值的后验分布如附录G所示。

使用道具举报

14楼

mingdashike22

发表于 2022-6-14 09:52:53 |只看作者 |坛友微信交流群

权重编码了交易者对基准重要性的主观看法，这些基准应该有助于在投资组合经理的战略中保留alpha。行业标准是衡量参与率较低的大订单，即VWAPweight wV W APL较大，而积极订单的is基准wIS权重较大。作为最后一步，我们根据总分T对算法进行排序，总分T定义为相关性R和性能得分P的加权和：T=wrR+wpP（16），这里的默认值为wr=0.3和wp=0.7。我们认为，平衡相关性和性能代表了对排名交易算法的整体看法，并通过自我纠正机制防止病态边缘案例的出现。10致谢作者感谢Andrei Iogansen、Tito Ingargiola、Kapil Phadnis、VladRashkovich和Vasilisa Markov的有益讨论和建议。11结论在本文中，我们提出了贝叶斯框架中交易成本分析的公式。我们的公式允许我们仅使用有限的样本有效地计算交易基准的预期值。

使用道具举报

15楼

能者818

发表于 2022-6-14 09:52:56 |只看作者 |坛友微信交流群

我们还讨论了该方法在代理执行算法排序中的应用。附录A：基准之间的相关性表2显示了使用四个参与率区间的TCA基准皮尔逊相关矩阵。参与率范围：1-7%VWAP PWP20 Rev5mIS 1-0.01 0.79 0.04VWAP-0.01 1 0.07 0.03PWP20 0.79 0.07 1 0.04Rev5m 0.04 0.03 0.04 1参与率范围：7-15%VWAP PWP20 Rev5mIS 1 0.12 0.63 0.07VWAP 0.12 1 0.38 0.09PWP20 0.63 0.38 1 0.095M 0.07 0.09 0.09 1参与率范围：15-25%VWAP PWP20 Rev5M 5MIS 1 0.23 0.35 0.11VWAP 0.23 1 0.83 0.05PWP20 0.35 0.83 10.10Rev5m 0.11 0.05 0.10 1参与率范围：25-40%为VWAP PWP20 Rev5mIS 1 0.40 0.10 0.27VWAP 0.40 1 0.43 0.15PWP20 0.10 0.43 1 0.27Rev5m 0.27 0.15 0.27 1表2。使用四个参与率桶的皮尔逊相关矩阵。附录B：交易基准的分布图1显示了TCA基准在美国的分布情况。分布具有明显的非高斯形状：形状呈尖峰状，尾部丰满，数据倾斜，执行情况更差。我们展示了汇集（聚合）数据的IS、VWAP、PWP 20和5分钟反转基准的分布，以及美国主要经纪人的VWAP、POV和IS算法。

使用道具举报

16楼

何人来此

发表于 2022-6-14 09:53:01 |只看作者 |坛友微信交流群

请注意，VWAP算法（低参与率）基准分布几乎是对称的，而IS和POV算法（高参与率）基准分布是倾斜的。100 0 100IS，bps0.0000.0050.0100.015PDF20 10 0 10 20VWAP，bps0.000.050.10PDF40 20 0 40PWP20，bps0.000.010.020.030.040.05PDF20 0 20反转5分钟，BPS00.000.020.040.06PDFAll算法100 0 100IS，BPS00.00000.00250.00500.00750.0100PDF20 10 0 10 0 10 10 10 20VWAP，BPS00.0000.0250.0750.1000.125PDF50 25 0 25 50PWP20，bps0.0000.0050.0100.0150.0200.025PDF20 0 0 20反向5分钟，bps0.000.020.040.060.08PDFA VWAP算法100 0 100IS，bps0.00000.00250.00500.00750.0100PDF20 10 0 10 20VWAP，bps0.0000.0250.0500.0750.100PDF50 25 0 25 50PWP20，bps0.0000.0050.0100.0150.0200.025PDF20 0 0 0 0 20 5分钟反转，BPS00.000.020.040.06PDFA POV算法100 0 100IS，BPS00.0000.0050.0100.0150.020PDF20 10 0 10 20VWAP，bps0.000.020.040.06PDF50 25 0 25 50PWP20，bps0.000.010.020.030.04PDF20 0 20回归5分钟，bps0.000.020.040.06PDFAn IS算法图1：所有可用数据的TCA基准和美国主要经纪人的VWAP、POV和IS算法的经验概率分布附录C：通用集合回归系数的回归模型选择如下。位置参数u的系数β为正态分布N（u，σ），平均值为u，标准偏差为σ。

使用道具举报

17楼

kedemingshi

发表于 2022-6-14 09:53:04 |只看作者 |坛友微信交流群

对于β，我们有广泛的先验知识；对于β1,2,3,4，我们选择一个凹形：β~ N（0，2），β1,2,3,4~ N（0.5，0.5）（17）对于γ，我们有一个广泛的先验；对于γ1,2,3,4,5，我们选择一种凹形形式：γ~ N（0，2），γ1,2,3,4,5~ N（0.5，0.5），γ~ N（1，1）（18）对于γ，我们使用正态分布，其左侧以零为界。考虑到期望值对偏态参数κ的敏感性，我们选择α为负数，α1,2以零为中心，以便我们从零偏态假设开始，仅在数据如此规定的情况下调整偏态：α~ N个(-5, 2), α1,2~ N（0，0.5）（19）算法特定的层次回归模型将βposit和γposit以及αposit的后验分布的平均uposit和标准差σposit作为特定系数βaian和γiand以及αAi的先验算法。回归系数βa、γi和αa i为正态分布。位置参数u的系数β未填充（每个算法不同），算法A的系数β由以下公式给出：βAi~ Nu（βposi），σ（βposi）（20）尺度参数σ的系数γ被合并（对于所有算法都是相同的），因为它们表示基准的属性，而不是算法的属性。γi~ Nu（γposi），σ（γposi）（21）不填充偏度参数κ的系数α（每个算法不同），对于算法A，由以下公式给出：αAi~ Nu（αposi），σ（αposi）（22）根据Bayes定理，回归系数的后验分布∈ [β，γ，α]给定观测值y为：P（w | y）∝ P（y | w）P（w）（23）前面的P（w）在上面定义，可能性P（y | w）由不对称拉普拉斯分布（7）给出。或者，可以使用非对称广义正态分布或非对称t分布作为可能性。

使用道具举报

18楼

何人来此

发表于 2022-6-14 09:53:08 |只看作者 |坛友微信交流群

由于附加的形状参数，它们可能提供更好的拟合，但我们发现对于我们的问题，校准不太稳定。后验分布P（w | y）的样本是使用马尔可夫链蒙特卡罗方法获得的【Brooks S.等人，2011年】。附录D：通用模型的校准为了证明我们方法的实用性，我们根据彭博EMSX数据的子集校准了通用回归模型。第一个数据集在美国有6.7万个观测值。S、（美国模式）；第二个数据集包含来自英国、德国、法国、意大利、西班牙和瑞士（欧盟模式）的6.1万个观测值。数据从2017年3月21日至2018年9月21日。我们选择了完整的市场（无限价）日订单，订单持续时间超过5分钟，最大规模/ADV 20%，最小规模/ADV 0.1%，最大参与率40%，最小参与率1%。我们使用了以基点衡量的交易基准的标准定义。Letus将平均执行价格表示为“P”，S是交易的符号（对于buytrade，S=1，S=-1）则基准由以下公式给出：IS=到岸大米–“P”* S* 10000（24）V W AP=PV W AP–“P”P* S* 10000（25）P W P 20=PP W P 20–“P”P* S* 10000（26）对于5分钟的逆转，我们在最后一次装填P5minV W AP后5分钟，对最后一次装填塑料填充和VWAP价格进行区分。Rev5m=P5minV W AP- 塑料填充塑料填充* S* 10000（27）此外，我们只采取满足以下所有条件的观察结果（|基准|<c）：cIS=500个基点，cV W AP=150个基点，cP W P 20=150个基点，cRev5m=200个基点。对于校准，我们使用PyMC3[Salvatier J。

使用道具举报

19楼

mingdashike22

发表于 2022-6-14 09:53:11 |只看作者 |坛友微信交流群

等人，2015年]使用大量迭代（Niter=500000，Nburn=400000，Ntining=20）和无U形转弯取样器（NUTS）（Niter=10000，Nburn=5000）实施Metropolishistings方法，并获得相同的结果（在较小的数值误差内）。用NUTS算法校准的模型回归系数边际分布的平均ubenchmark和标准偏差σbenchmark如表1所示。美国βββγγγγαu为0.89 0.46 0.09 0.83 0.16 3.76 0.43-0.45 0.64 0.2--3.4-0.22 0.49σ为0.14 0.02 0.03 0.03 0.02 0.03 0.01 0.01--0.16 0.03 0.04uV AP-1.12 0.08 0.01 0.85 0.84 0.18-0.33 0.43 0.36--5.1-0.46 0.13σV W AP0.1 0.01 0.02 0.02 0.02 0.03 0.00 0.0 0.01 0.01--0.43 0.07 0.08uP WP 20-0.02 0.14-0.32 0.13 0.72-0.2 0.33-0.5 0.63 0.19 1.04 5.91-3.45-0.28 0.24σP WP 200.19 0.02 0.04 0.03 0.19 0.0.01 0.1 0.01 0.05 0.52 0.19 0.03 0.03 0.03uRev5m-2.93-0.09 0.47 0.17 0.71-0.45-0.02 0.07 0.53 0.24--1.73 0.00 0.24σRev5m0.17 0.03 0.03 0.03 0.03 0.03 0.0.01--0.15 0.03 0.03 EUβββγγγγαu为2.29 0.44 0.01 0.47 0.09 4.44 0.45-0.45 0.47 0.13--3.4-0.12 0.57σ为0.13 0.02 0.02 0.02 0.02 0.04 0.000.00 0.01 0.01--0.19 0.03 0.04uV W AP-0.76 0.17 0.04 0.25 0.33 2.27 0.31-0.41 0.34 0.19--6.04-0.47 0.33σV W AP0.14 0.02 0.02 0.02 0.03 0.02 0.04 0.00 0.01 0.0--0.76 0.14 0.12uP WP 201.34 0.29-0.39 0.26 0.27 1.09 0.41-0.54 0.42 0.12 1 5 47-3.23-0.2 0.28σP WP 200.22 0.02 0.04 0.05 0.03 0.19 0.00 0.01 0.01 0.01 0.05 0.5 0.21 0.04 0.04uRev5m-0.74 0.11 0.31 0.28 0.19 1.76 0.26-0.2 0.54 0.2----2.18 0.07 0.31σRev5m0.19 0.02 0.04 0.04 0.02 0.04 0.00 0.01 0.01 0.01--0.25 0.04 0.08表1。通用TCA模型的系数。美国模型的回归系数有明确的解释。

使用道具举报

20楼

能者818

发表于 2022-6-14 09:53:14 |只看作者 |坛友微信交流群

IS基准的locationparameteru大致具有平方根定律行为：u~ σ0.99D×（尺寸/ADV）0.46（假设S~ σD）。比例参数σ的比例近似为订单持续时间T的平方根~尺寸/ADVρ：σ~ σ0.84D×T0.43（假设S~ σD）。VWAP基准的位置参数u主要是spreadparameteru的函数~ S0.85。PWP 20基准的预期值对参与率ρ的依赖性是非单调的，由γ=1.04系数决定。回归基准的位置参数u取决于参与率u~ ρ0.47，但不受尺寸/ADV参数的影响。附录F：模型验证美国和欧盟通用模型的后验预测分布如图2和图3.150 100 50 0 50 100 150IS、bps0.000.010.02PDFmodelempirical20 10 10 10 20 VWAP、bps0.000.050.10PDFmodelempirical40 20 20 20 40 PWP20、bps0.000.020.040.06PDFmodelempirical30 10 10 10 10 20 20 20 20 20 30 5分钟反向，bps0.000.020.040.06PDFmodelempiricalFigure 2：美国通用模型的后验预测分布。150 100 50 0 50 100 150 IS，bps0.000.010.02PDFmodelempirical20 10 10 10 20 VWAP，bps0.000.050.100.15PDFmodelempirical40 20 20 20 40 PWP20，bps0.000.020.040.06PDFmodelempirical30 20 10 20 20 30 5分钟反转，bps0.000.020.040.06PDFmodelempiricalFigure 3：欧盟通用模型的后验预测分布。附录G：IS和VWAP成本的后验分布图4显示了美国主要经纪人三种IS策略的高参与率（规模/ADV=0.01，参与率=25%，年化波动率30%，利差10个基点）订单的IS基准预期值的后验分布。

使用道具举报