|
换言之,我们假设理想的投资策略应该是,从一个财富单位开始,培训期内的最终财富平均应比同一交易周期内同等权重的投资组合所获得的最终财富高出7.0个财富单位——这是故意贪婪的。频率参数:我们考虑的第一种推理方法是通过最大化p的PD(logf),直接学习DWP的最佳参数∈ [-8, 8]. 作为比较,SPTL文献中考虑的p的典型范围为[-1, 1]. 为了避免局部最大值出现任何问题,我们对网格大小为0.05的uniformgrid进行了蛮力最大化。贝叶斯参数:我们考虑的第二种推理方法包括使用Metropolis-Hastings算法(Hastings[1970])从DWP情况下指数p的后验分布p(p | D)中取样∝ L(PD(p))×1(p)∈ [-8,8]),(24)其中我们将L(PD(logf))重写为L(PD(p)),以使p中的依赖关系显式。我们对一个提议进行取样这在我们进行的每个实验中都不超过几秒钟。更新p*从以当前指数P为中心且标准偏差为0.5的高斯分布。很容易发现接受概率为ber=min1,L(PD(p*))L(PD(p))1(p*∈ [-8, 8]). (25)我们特别注意到,只要p在[-8,8],等式(24)中的指示函数不会对马尔可夫链造成问题。我们通常会运行10000次迭代,并将前5000次作为“老化”丢弃。我们使用从训练数据中学习到的后验平均指数,在相应的DWP^f(u)=uE(p|D)之后,在我们的测试范围内进行交易。(26)贝叶斯非参数推理:我们考虑的第三种推理方法是贝叶斯非参数推理。我们将aGaussian流程置于log flog f之前~ GP(0,k(·,·))。
|