基于半监督学习的投标泄漏检测 - 第3页 - 外文文献专区

21楼

发表于 2022-6-14 05:47:59

realfair拍卖中赢家和亚军的赢家分类预测分布概率密度函数之间的差异与安慰剂拍卖中的差异相同。16采购拍卖中的投标泄漏使用我们可能估计的平价假设（y）因此，投标漏报的先验α和后验pbl（y）。我们讨论并验证了第6.1.5节中奇偶校验的适用性。实证结果5.1。将策略应用于主要样本。在这一小节中，我们总结了我们对3名及以上参与者的主要样本中投标泄露的前后概率的估计。表4：。损坏拍卖的估计比例real placeboNN XGB0.089±0.011 0.084±0.009 0.002±0.001 0.002±0.002Notes：在“real”列中，原始组real（1,2）被视为real，第一位安慰剂（2,3）下降的安慰剂组被视为安慰剂。在“安慰剂”一栏中，排名第一的安慰剂组（2，3）被视为真实的，排名第一和第二的安慰剂组（3，4）被视为安慰剂。子列“NN”和“XGB”表示不同的分类。通过独立应用该策略5次来收集统计数据。样本中易受投标泄露影响的拍卖总比例估计为8-9%（表4）。这一估计值略小于之前的10-11%（Korovkin et al.2018），这可能是因为我们的平价假设比独立性更保守。第6.2节详细讨论了这些结果。我们还希望描述两阶段策略所学习到的决策机制及其确定为可疑的模式。不幸的是，解释神经网络或决策树集合是一项非常重要的任务，而简单的分类器缺乏表达能力。

22楼

何人来此

发表于 2022-6-14 05:48:01

加入涉及密度估计的后处理阶段会使任务进一步复杂化。我们没有追求固有的可解释性，而是提出了一个简单的替代方案。具体而言，我们训练一个截断的决策树（图5）来近似策略的预测。虽然这种方法并没有揭示所有复杂的功能交互，但它提供了对该策略所怀疑的主要模式的洞察。值得注意的是，这些模式与收到泄露标书的参与方的理性行为（第1节）以及我们在数据分析（第3.2节）中发现的异常情况相吻合。最可疑的拍卖可以通过以下一组特征来描述（按重要性递减的顺序）：中标人在采购拍卖中的出价泄露17在拍卖中最后一次，在第二次出价的1-2%内，在拍卖的最后10分钟内，并且之前与同一采购人参加过拍卖。更多详细信息请参见图5。图5：。根据投标泄漏预测训练的决策树回归。注：根据表3中的特征对树进行训练，以预测投标泄漏估计策略的输出。在每个节点中，第一行是对数据进行最佳分割的条件（叶子中没有），第二行是子样本大小，第三行是子样本中的平均投标泄漏预测。左箭头指向满足条件的子样本，反之亦然。重申一下，此决策树仅提供经验法则解释。这些特性本身可能无法提供有关投标泄漏的信息；重要的是，它们对优胜者比亚军的具体程度有多高。例如，较小的投标保证金通常不是来自特殊信息，而是来自commonshocks（Krasnokutskaya 2011），因此拍卖中的所有投标人的投标保证金都较小。

23楼

可人4

发表于 2022-6-14 05:48:04

只有当中奖者的平均投标利润率小于亚军的投标利润率时，分级者才能区分他们。类似地，由于我们的拍卖频繁，时间跨度为4年，所以获胜者和胜利者很可能都见过购电方。只有当优胜者比亚军（在我们的样本中）更早地遇到他们时，分类者才能区分他们。5.2. 将策略扩展到有2名参与者的拍卖。在预处理阶段，排除的数据大多是18位参与者的采购拍卖中存在1位和2位ID泄漏的拍卖。由于缺少亚军，因此无法使用我们的策略分析有1名参与者的拍卖。然而，有两名参与者参与的拍卖问题并不那么严重。虽然优胜者和亚军都出现在这些拍卖中，但由于缺乏第三名，无法计算出一个特殊的特征，即竞价保证金。将我们的策略扩展到这些拍卖的一种方法是从功能集中删除投标保证金，但这很难做到精确。我们采用了不同的方法。程序如下。在主样本中估计出投标漏报后，对于每个有两名参与者的拍卖，我们在主样本中发现一次拍卖，其中获胜者最为相似。然后，我们将两个中标人的投标泄漏概率分配为相等。从技术上讲，该程序采用k=1的k-邻域回归，其中主要样本及其投标泄漏预测被用作训练数据和目标。为了找到最近的邻居，使用了与表3相同的特征（不包括参与者人数）。由于欧几里德距离对尺度敏感，因此特征被预先归一化。结果见表5。表5：。

24楼

大多数88

发表于 2022-6-14 05:48:07

有2名参与者的腐败拍卖估计比例Real placeboNN XGB0.109±0.006 0.100±0.010 0.002±0.002 0.002±0.003注：该表与表4类似，但为有2名参与者的拍卖样本。很难判断所概述的程序有多精确。由于特征分布随参与者的数量而变化，因此该样本的估计可能会有偏差。一方面，公平的胜利者更有可能最后出价，而参与者的出价越低，这可能导致高估。另一方面，参与者越少，公平获胜者和亚军的出价越不可能被否决，这可能导致低估。目前尚不清楚这些因素中有哪些是主导因素（如果有的话）。尽管如此，比例估计（表5）似乎是合理的，特别是考虑到对主要样本中参与者人数较少的拍卖的高于平均水平的预测（图6）。在有2名参与者参与的拍卖中，由于与保留价格的标准化差异导致目标泄漏，因此估计亚军的投标保证金，即零保证金的参与者是亚军。结果对邻居数具有鲁棒性。采购拍卖中的投标泄漏195.3。投标泄漏预测与拍卖特征的联系。特定子样本的投标泄漏概率为深入了解投标泄漏背后的机制提供了依据。我们在图6中给出了这些结果。图6：。通过拍卖特征聚合的投标泄漏概率注：所有地块的α相关性在0.0001水平上具有统计显著性。最上面一行的相关性为正，最下面一行的相关性为负。填充区域表示0.95置信区间。在先验概率水平上绘制水平虚线。

25楼

能者818

发表于 2022-6-14 05:48:10

最后两个图对应于“投标保证金”和“投标时间”这两个特征，这两个特征被输入到中标者的分类中。如表3的注释所述，这些特性是从上面裁剪出来的。图6中左上角的图表表明，随着底价的上涨，出现投标漏报的可能性略大。这很自然，可能有两种解释。首先，更高的合同底价有利于组织高风险的腐败计划。第二，更好组织的腐败方案允许设定更高的底价，以最大限度地提高收益。图6中的顶部中心图表明，投标人平均数的极端数对应于较高的投标泄漏概率。为了防止投标泄漏，应同时提高底价。更高的底价吸引了更多的投标人。如果拍卖商能够阻止进入（例如，通过要求认证、通过发布难以发现的公告、通过在采购拍卖中出现坏账泄漏20图7。俄罗斯声誉地区的估计投标泄漏流行率），只有少数投标人进入。如果拍卖商无法阻止进入，许多竞拍者就会进入。右上角的图表表明，多年来，投标漏报是一致的。图6中左下角的图表显示了投标漏报与价格下跌的明显关系——最终价格与底价的比率。较高的漏标概率与较高的最终价格相关，因为漏标阻碍了竞争。图6中的底部中心图表明，较低的投标保证金与较高的投标泄漏概率相关，但低于底价0.2%的投标保证金除外。（平均约为数百卢布。

26楼

kedemingshi

发表于 2022-6-14 05:48:13

较低的投标保证金可能看起来可疑，因此没有选择。）图6中右下角的图表显示，（估计）受青睐的参与者越有可能提交标书，越接近预期的截止日期。采购拍卖中的投标泄漏21图8。价格下跌根据投标泄漏概率回归注：因变量是asr定义的标准化价格下跌-br，其中r是reserveprice，即bis中标人的出价。感兴趣的回归系数为“bl\\u prob”，即预测的漏失概率。估计系数-0.1045可以解释为腐败拍卖与公平拍卖相比的平均降价。作为控制变量，我们使用服务价格的对数和一个热编码的参和者数量。将地理区域作为控制变量显著改变“bl\\u prob”系数-0.1025. 为了检验多重共线性，我们计算回归系数的方差波动系数（VIF）。回归系数中最高的VIF估计为1.13，如果拇指规则V<5，则表示不存在多重共线性。这些实验是使用statsmodels软件包（Seabold和Perktell 2010）进行的。最后，图7显示了跨区域的投标泄漏平均概率。也许令人惊讶的是，不同地区之间的差异相当大。然而，这些结果与俄罗斯地区可用的其他腐败措施相一致，例如选举舞弊（参见Mebane和Kalinin（2009）、Bader和van Ham（2015））。5.4. 投标漏报导致采购成本增加。为了估计投标泄漏引起的采购成本变化，我们首先构建了价格下降对预测投标泄漏概率的普通最小二乘回归。

27楼

mingdashike22

发表于 2022-6-14 05:48:16

有关结果和技术细节，请参阅图8。采购拍卖中的投标泄漏22然后将拟合回归应用于其训练的初始数据集，以及修改后的公平数据集，其中所有拍卖的投标泄漏概率手动设置为零。这使我们能够根据是否存在投标泄漏来估计拍卖的预期总价格之间的差异。当标准化价格下跌（储备价格百分比）用作因变量时，差异估计为5.2亿卢布，当价格下跌未标准化（卢布）时，差异估计为4.7亿卢布。这些估计值约占储备价格总和的1%，约占最终价格总和的1.5%。6、验证在手边没有标签数据的情况下，评估方法的性能本质上是困难的。除了适当的验证之外，另一个可取的选择是在一个被证明已损坏的小样本拍卖上估计该方法的精度，但我们无法获得该样本。幸运的是，大部分工作可以使用安慰剂数据集完成。首先，安慰剂允许我们明确检查独立性和奇偶性假设。我们发现，独立性并不成立，而平等是可以支持的。其次，我们通过将其应用于非空中安慰剂拍卖来衡量对我们策略的高估。正如所料，那里几乎没有发现腐败现象。我们在分析中使用了两个安慰剂数据集，一个是落选的优胜者，另一个是落选的优胜者和亚军，分别表示为安慰剂（2,3）和安慰剂（3,4）。类似地，Real（1,2）表示没有丢弃参与者的原始数据集。

28楼

大多数88

发表于 2022-6-14 05:48:19

这两个安慰剂数据集之间的关系被认为是在没有腐败的情况下模仿真实（1,2）和安慰剂（2,3）之间的这种关系。换言之，安慰剂数据集的相似性意味着与原始数据集的差异是由投标漏报造成的。6.1. 验证奇偶性和独立性假设。为了给奇偶性假设提供一些直觉，我们从解构它开始。首先，请注意，平价是关于“赢家分类分布”预测y（x）的陈述，而不是“初始特征分布”x。这是一个细微但重要的区别，因为后一种表述更为有力。尽管如此，如果假设是关于x而不是y（x）的，则可以粗略地翻译为“特征分布的一阶和二阶统计量的PDF之间的差异等于二阶和三阶统计量之间的差异”。如果这种假设不适用于统一或正态等简单分布，那么为什么这种假设适用于复杂特征分布23采购拍卖中的投标泄漏呢。这就是x和y（x）之间的区别变得相关的点。一方面，如果奇偶校验不适用于x，则由于分类器的不完善，它可能仍然适用于y（x）。即使（x）不同于（x），分类权不能准确反映这种差异。作为一个极端的例子，一个随机猜测分类器（预测常数y独立于x）会产生这样的预测：（y） =（y） =0表示任何特征分布。另一方面，更重要的是，当为y（x）制定公式时，独立性和奇偶性都可以通过统计学进行验证。很难验证（x） =（x）有两个主要原因。第一个原因是维度诅咒阻碍了X的多维特征分布的密度估计。

29楼

可人4

发表于 2022-6-14 05:48:21

相反，对于y（x）的一维PDF和CDF的估计，维数灾难不是一个问题。第二个原因是缺乏获取信息的渠道（x）或（y）由于真实数据被损坏的拍卖所污染。为了验证奇偶性，我们在统计上验证（y） =（y），表示（y）以及（y）。同样，我们通过测试（y） =0，而不是（y） =0。测试是否（y） =0，即分类者对安慰剂拍卖优胜者和亚军的预测是否来自同一分布，我们进行两样本Kolmogorov-Smirnov（KS）检验（Lilliefors 1967）。统计墨水测试是两个样本的经验CDF之间绝对差异的上限（supF（2,3）（y）- F（2,3）（y）, 其中F表示cdf）。得出的p值等于10-它拒绝了f（2,3）（y）和f（2,3）（y）相等的无效假设。关于奇偶性，测试（y）以及（y）没有那么简单。据我们所知，没有任何统计测试可以验证分布之间的差异是否相等。作为近似值，我们使用选择作为经验CDF之间差异绝对差异上限的统计数据进行KS检验（sup |（F（2,3）（y））- F（2,3）（y））- （F（3,4）（y）- F（3,4）（y））|）。得出的p值等于0.006，这在0.01上很重要，但在0.001概率阈值上很重要。根据这一结果，我们不能肯定平价是否成立。然而，奇偶性比独立性更有可能维持几十个数量级。此外，我们通过比较绝对值方面的假设，提供了奇偶性比独立性更可信的间接证据。

30楼

能者818

发表于 2022-6-14 05:48:25

为此，我们报告了评级机构的表现（表6），以及采购拍卖中的漏标差异24表6。分类者在原始和placebodatasetreal（1,2）安慰剂（2,3）安慰剂（3,4）上的表现准确度0.5383±0.0008 0.5090±0.0002 0.5061±0.0005ROC-AUC 0.5520±0.0007 0.5103±0.0002 0.5058±0.0005注：通过训练5名随机初始化的分类者获得分数的平均值和标准差统计数据。对于所有列，分类人员都接受了Real（1,2）培训。考虑到潜在的低腐败率，如果安慰剂的表现低于原始数据，那么分类者的低表现也就不足为奇了。以神经网络为基础，为班级报告分数；基于梯度提升的分类器性能类似。分类师对优胜者和亚军预测的PDF，明确估计为归一化直方图的差异（图9）。我们首先讨论了分类器的性能（表6）。如果独立性成立，我们希望分类者在安慰剂数据和随机猜测的基础上进行分类，即分类者不应根据时间相关特征区分公平优胜者和亚军（虽然我们也使用与投标相关的特征“投标保证金”，但如果排除该特征，下面的观察结果仍然存在）。相反，我们观察到，分类者在安慰剂（2，3）和安慰剂（3，4）数据集上都有上述随机表现。另一方面，如果平价保持不变，我们只希望分类者在两个安慰剂数据集上的表现相同。虽然情况并非如此，但与随机猜测分类相比，分类者在安慰剂数据集上的表现更为相似。换句话说，即使违反了平等，独立性也会受到更多的侵犯。

[量化金融] 基于半监督学习的投标泄漏检测 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群