基于Agent的机器学习代理模型标定 - 第2页 - 外文文献专区

11楼

发表于 2022-5-31 19:00:11

这就解释了为什么以前的绝大多数贡献都使用非常简单的作业成本法（参数少，代理少，没有随机抽取）来说明其方法，而大型宏观作业成本法通常验证和校准较差。因此，使用标准的统计技术，必须尽量减少参数的数量，以实现可行的估计。从理论角度来看，维数灾难意味着任何估值器对高维参数空间上定义的光滑函数的真实值的收敛速度非常慢（Weeks，1995；de Marchi，2005）。在实验文献的设计中引入了几种方法来避免这个问题，但平滑度、线性度和正态性的假设通常不适用于ABMs（见Lee等人，2015年的广泛讨论）。不幸的是，基于主体的宏观经济学的最新发展也导致了develSee Grazzini和Richiardi（2015）以及Fabretti（2012）对越来越复杂模型的相同方法的其他应用，这些模型需要大量的参数来充分捕捉微观基础的复杂性，多部门和可能的多国现象（最近的调查见Fagiolo和Roventini，2017）。在这种情况下，无论是直接估计还是全局敏感性分析（通常主张将其作为ABM勘探的自然方法，参见Moss，2008；Thiele et al.，2014；ten Broeke et al.，2016）在计算上似乎都不可行。新的替代方法必须处理两个问题：减少计算时间和为校准和验证程序设计适当的标准。

12楼

何人来此

发表于 2022-5-31 19:00:14

我们的方法表明，通过开发一种计算程序，可以有效地训练替代模型，从而优化特定的校准标准或产生模型生成变量之间的统计关系，从而以有意义的方式将这些问题联系起来。我们的程序与Dawid et al.（2014b）的程序有一些相似之处，在Dawid et al.（2014b）的程序中，惩罚样条法被用来简化参数探索，并揭示政策对利益经济变量的动态影响。然而，我们的方法特别关注计算效率，因此建立在两大支柱上：代理建模和智能采样。关于替代模型，我们扩展了经济文献中最近的贡献，即使用克里格法构建ABMs的替代元模型（Salle和Yildizoglu，2014；Dosi等人，2017c；Bargigli等人，2016）。基于克里格的梅塔模型的主要挑战之一是，它们无法有效地建模十几个以上的参数。这种约束迫使建模者在参数空间较大时任意固定参数子集。此外，克里格法依赖于高斯过程（Rasmussen和Williams，2006；Conti andO\'Hagan，2010），当违反基本平滑度假设时，会面临严重困难。建模ABMs的粗糙参数空间尤其具有挑战性。为了克服这些限制，我们的元建模方法利用了机器学习文献中的非参数boostedtrees，这些boostedtrees不依赖于平滑度假设（seeFreund et al.，1996；Breiman et al.，1984）。即使是最先进的代理建模算法，其性能也与标记样本的质量一样好。对于ABM，带标签的样本是一个参数组合，并且是给定此参数化的ABM输出。

13楼

何人来此

发表于 2022-5-31 19:00:17

分批抽样、一次对大量样本进行抽样的过程，如随机抽样、准随机抽样（如Sobolsampling）、扩展Sobol序列以降低错误率的扩展（见Saltelli et al.，2010）以及更复杂的程序，如拉丁超立方抽样，都受到其对抽样的一次性限制。此外，感兴趣的ABM参数通常很少，并且只提供了一小部分可能的参数化。鉴于样本的这种不平衡性质和评估ABM参数的不可忽视的计算成本，有必要仔细选择要评估的参数，同时利用生成未评估参数的廉价（几乎免费）成本。在多轮抽样中按顺序选择信息量最大的样本子集的问题是主动学习的基础（参见Settles，2010年的调查）。特别是，考虑到大量未标记的参数化和固定的评估预算，主动学习从库中选择参数化，以最大化代理元模型的泛化或学习性能。3代理建模方法ologyone可以将基于代理的模型表示为映射m:I→ O从一组输入参数i转换为一组输出参数O。参数集可以被视为一个由每个参数的支持度所跨越的多维空间。大型宏观经济数据库中的参数数量通常高达几十个。输出集通常较大，因为它对应于大量微观和宏观变量的时间序列实现。这组丰富的输出允许基于代理的模型根据其再现经验数据统计特性的能力进行定性验证（例如。

14楼

大多数88

发表于 2022-5-31 19:00:19

GDP的非平稳性、宏观经济时间序列的相互关联性和相对波动性）以及微观经济分布特征（如企业规模、家庭收入和资产收益的分布）。除了程式化的事实外，基于代理的模型的定量验证还需要在一组（通常很小的）聚合变量（如GDP增长率、通货膨胀和失业水平、资产回报率等）上对模型进行校准/估计。在不丧失一般性的情况下，我们可以将这种定量校准表示为输入值的确定，以便输出满足某些校准条件，例如，来自统计测试或似然或损失函数的评估。例如，这与模拟力矩法一致（Gilli和Winker，2003；Franke和Westerhoff，2012）。我们考虑两种设置：o二元结果。在此设置中，可将校准标准视为一个函数，v:O→ {0，1}，它将ABM输出映射到一个二进制变量，如果找到输出的某个属性（或属性集），则该变量取1，否则取0。例如，人们可能希望财务ABM匹配的一个特性是收益分布中存在过多的峰度。这种设置会导致机器学习文献中所称的分类问题实际价值结果。在此设置中，可将校准标准视为A功能，v:O→ R、它将ABM输出映射到实数，从而对模型的特定属性进行定量评估。例如，人们可能想计算模拟数据的多余峰度，然后将其与从实际数据中获得的峰度进行比较。

15楼

nandehutu2022

发表于 2022-5-31 19:00:22

这种设置会导致机器学习文献中所称的回归问题。为了与机器学习术语保持一致，我们说函数v将一个标签分配给参数向量x。显然，我们希望找到一组输入参数x∈ I使其标签表明满足所选条件。更正式地说，我们说C是表示条件满足的一组标签。例如，在二元结果的情况下，我们可以说C={1}，这表示所选属性是服务的；在实值结果的情况下，假设v表示模拟数据和实际数据的某些统计数据之间的距离，可以考虑C={x:v（x）≤ α} orC={minx∈Ijv（x），j=1，2，3。。，J} 。后一种情况正好反映了一个常见的校准问题，即在参数空间上最小化一些损失函数，并随机重新启动以避免最终陷入局部极小。定义1。我们说正校准是一个参数向量x∈ I其标签不包含在集合C中，即x:v（x）∈ C、相反，负校准是一个参数向量，其标签不包含在C中。现在的问题是找到所有正校准。然而，对输入集I的深入研究在计算上是不可行的。如上所述，减少识别正校准所需的计算时间至关重要。本文建议训练一个有效逼近值off（x）=v的代理模型om（x）使用有限数量的输入参数（预算）来评估真实的ABM。一旦代理项得到训练，它就提供了一种有效的方法来探索整个参数空间中的ABM行为。代理培训程序需要三个决定：1。

16楼

大多数88

发表于 2022-5-31 19:00:25

选择一个机器学习算法作为原始ABM的代理，注意机器学习模型所做的假设不会对参数空间强制不现实的假设；2、选择抽样程序，从参数空间中抽取样本，以训练代理；选择可用于评估代理绩效的分数或标准。在使用基于克里格的方法时，我们倾向于避免平滑度假设和选择好的先验和核的挑战（见Rasmussen和Williams，2006；Ryabko，2016），因此，我们建议使用极端梯度增强树（XGBoost）（Chen和Guestrin，2016，见），形成“增强”（见Freund，1990；Freund et al.，1996）分类和回归树（CART）（Breiman et al.，1984，见）的随机集合（见Breiman，2001）。这种选择赋予我们的代理对象学习非线性“刀口”特性的能力，这通常是ABM参数空间的特征。抽样应仔细选择应根据代理绩效评估ABM的哪些参数化。在这里，我们根据预先规定的评估预算利用基于池的主动学习。下面详细介绍了代理结构、主动学习方法和性能标准。3.1代理结构在这里，我们采用迭代培训程序（见图1）在几轮中构建不同的代理，直到我们接近真实ABM评估的预定预算。在每一轮中，在迭代过程中使用额外的参数向量。预算由用户根据预先确定的、可接受的学习代理的计算成本预先设置。

17楼

大多数88

发表于 2022-5-31 19:00:28

在每一轮中，使用所有可用的参数向量和它们各自的标签来训练代理项，这些参数向量和标签已聚合到该轮。一旦不考虑其精度，代理仍然是原始模型的近似值。我们建议用户在任何情况下，使用原始ABM确定积极校准，并进一步研究模型在其中和封闭社区中的行为。有关主动学习的回顾，请参见e.g.Settles（2010）。图1：代理建模算法。评估预算已达到，最终代理已准备好用于参数空间探索。在这里，我们依赖XGBoost（Chen和Guestrin，2016）作为我们的代理学习算法。该算法依次学习分类树和回归树的集合（CART，见Breiman et al.，1984）。图2提供了CART树的示例。假设CARTtrees表示为函数，则可以最小化由CART树集合产生的梯度。将权重分配给每个参数向量，并在使总损失最小化的梯度方向上“增强”。提高学习样本难度的重要性。在随后的每一轮中，通过增强的参数向量学习一棵新树，根据增强的权重增加惩罚。因此，根据上一轮的权重学习树。XGBoostalgorithm构建了CART树，这些树越来越专业化，能够处理在本轮之前很难学习的特定样本子集。

18楼

大多数88

发表于 2022-5-31 19:00:31

描述该学习过程的一种常见方法是将其视为“弱”近似的集合，这些集合共同构成一个强近似（见Freund，1990；Freund et al.，1996；Chen和Guestrin，2016，了解更多详细信息，请参阅）。3.2代理绩效评估经过培训的代理可用于有效探索ABM在整个参数空间内的行为。然后可以使用原始ABM选择相关参数组合进行评估。考虑到避免评估计算成本高昂的trueABM的愿望，同时也确定了积极的校准，因此最大限度地提高代理的性能以预测这些校准至关重要。回想一下，正校准是指ABM建模者/用户指定的参数空间中满足特定条件的点。此类条件可能包括将模拟输出与真实数据进行比较的任何测试（例如，真实和模拟矩之间的距离、分布相等性的非参数测试、均方预测误差等）和/或模型可能生成的任何特定特征（例如，特定分布中的FATTAIL、高于或低于给定阈值的任何变量的增长率、一组变量之间的相关模式等）。在本文的两个练习中，图2：用于回归的分类和回归树（CART）示例。功能标记为f0，f4和节点指定切割阈值，指定新参数向量从顶部（根）节点到最终（叶）节点的路径，这表示预测校准值。在“增强”CART树以生成集合的过程中，每个子序列树越来越关注更高权重的样本。这通常会导致较小的“专用”树附着在最难分类的样本上。（参见。

19楼

kedemingshi

发表于 2022-5-31 19:00:33

下文第4节和第5节），对这两种情况进行了评估。有效的替代者应最大限度地提高“真阳性率”（TPR）。给定一组参数组合，TPR根据参数空间中可能的实际正校准数，测量学习的替代模型预测的正校准数。自动超参数优化过程根据学习分数或指标最大化机器学习代理的性能。虽然我们的目标是最大化代理的TPR，但用于训练代理的分数取决于输出条件的特定形式。根据以上介绍的两种设置，存在调整机器学习超参数的几种程序，参见Feurer等人（2015）。区分：o二元结果。在这种情况下，校准条件的输出是离散的，如接受/拒绝，需要对分类能力进行测量。具体而言，我们的目标是最大限度地提高F分数。F分数是p与r之间的调和平均值，p表示真阳性与总阳性的比率，r表示真阳性与预测阳性的比率：F=2p·rp+r，（1）F分数取0到1之间的值。就I型和II型错误而言，它相当于：F=2·真阳性2·真阳性+假阳性+假阴性。（2） o实际价值成果。在这种情况下，我们的目标是最小化均方误差（MSE），MSE=PNi=1（^yi- yi）N，（3）其中，代理预测了具有真实标签y的N个评估点上的^yi。我们注意到，这种方法与Recchioni等人（2015）的方法是一致的。3.3参数重要性我们的代理建模程序中使用的XGBoost算法也允许我们免费进行参数敏感性分析。

20楼

kedemingshi

发表于 2022-5-31 19:00:36

特别是，机器学习算法提供了一种直观的程序，可以根据参数在集合中“拆分”的相对次数来评估替代项的解释方差（有关详细信息，请参见Archer和Kimes，2008；Louppe等人，2013；Breiman，2001）。由于每个树都是根据特定参数向量的可能值的优化分割来构建的，并且越来越关注预测样本的难度，因此分割决定了参数的相对重要性，而不区分ABM的输出条件。因此，特定参数下的相对分裂数可以定量评估替代模型对参数指定的用户特定条件的敏感性。这还允许根据其在生成满足用户指定的任何条件的模型行为中的相对重要性对超参数进行排序。由于此过程是非参数的，因此应将结果值解释为基于排名的统计信息。特别是，与拆分数量相关的相对重要性值仅表征了插入的特定实例化。得出的计数可以深入了解每个参数的相对性能。更改树的数量将导致每个参数的拆分数量不同。随着树的数量接近实际，分裂的数量将根据大数定律收敛到每个参数的真实分裂比。请注意，关于绩效衡量标准，没有“免费午餐”，因此他们的选择取决于问题设置（参见Wolpert，2002），有关F分数的详细描述，请参见。

[量化金融] 基于Agent的机器学习代理模型标定 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群