楼主: kedemingshi
804 36

[量化金融] 基于半监督学习的投标泄漏检测 [推广有奖]

11
可人4 在职认证  发表于 2022-6-14 05:47:28
我们的投标泄漏估计策略基于正未标记(PU)分类。通常,在训练数据集未完全标记的情况下,应用PU分类代替监督分类。具体而言,假设只有阳性类别的标记样本可用,而其余的阳性数据和所有的阴性数据实际上都是,俄罗斯联邦反垄断局报告了投标人的一些官方投诉,称其投标因(声称)迟交而被非法拒绝,见br的数据库。fas。gov.ru。这里隐含的简化假设是,受青睐的投标人的成本低于每一个被泄露的投标人的成本。这使得诚实的投标人只能通过稍后提交投标而不是降低投标来应对投标泄漏。采购拍卖中的投标泄漏8表1。数据集特征特征特征平均标准偏差参与者人数中位数4.2 4 1.9底价,199000 155000 151000卢布中标人,133000 95000 115000卢布亚军,148000 110000 133000卢布价格从投标截止日期起下跌0.339 0.305 0.2050倍,从中标截止日期起下跌39.1 19.5 54.4倍,从亚军截止日期起下跌35.1 18.2 51.8倍,小时37.5 19.3 52.5持续时间,小时202 171 74注:数据集按第3.1节所述进行预处理。我们确定价格下降为-br,其中r是底价,即bis中标人的出价。混合在未标记的样品中。如果我们认为亚军是公平的(积极的),而获胜者可能是腐败的(未标记的),那么这个问题公式可以应用到我们的设置中。PU学习的其他应用包括检测假文本(Renet al.2014)、时间序列分类(Nguyen et al.2011)和疾病基因识别(Yang et al.2011)。

12
kedemingshi 在职认证  发表于 2022-6-14 05:47:32
2012).在过去二十年中,已经提出了许多方法来解决Puclassification问题(Liu等人,2002年,Lee和Liu,2003年,Elkan和Noto,2008年,Kiryo等人,2017年)。实现最先进性能的技术是DEDPUL(Ivanov 2019)。该方法既能估计未标记样本中阳性的比例,又能对其进行分类。第4.3节介绍了有关DEDPUL及其修改的详细信息,其中包含了我们对该领域的假设。拍卖数据3.1。预处理。我们提取了2014年1月至2018年3月期间发生的1271477次报价请求的数据。数据按以下方式进行预处理:o删除丢失数据或明显编码错误的拍卖。这些明显的错误包括:底价为负值或高于采购拍卖的数据存储在ftp://zakupki.gov.ruBID采购拍卖泄漏9表2。不同招标人数量的拍卖参与人数量610451 359588 137945 64297 3340418362 10405 6122 3898拍卖份额以底价0.320 0.055 0.010 0.008 0.008 0.008 0.004 0.004 0.006p(win | last)1 0.487 0.391 0.305 0.246 0.210 0.185 0.173 0.154p(win)1 0.333 0.25 0.2 0.166 0.143 0.125 0.111上限500000卢布;开始日期在结束日期之后;开始日期、结束日期或未来的投标日期;出价为负值或高于底价。因此,剩下98.5%的数据集。o我们的识别方法只能应用于有3名或更多参与者的拍卖。放弃1人和2人参与的拍卖后,剩下22.2%的数据集。o在并列投标的情况下,最早的投标获胜。这种平局制动程序可能会为获胜者的分类提供意外的问题,例如,零利润的早期投标可能会获胜。

13
能者818 在职认证  发表于 2022-6-14 05:47:35
要从数据集中排除ties,将放弃所有tielossing出价。结果,一些拍卖的参与者数量减少到3人以下,我们无法分析此类拍卖。最后一次修改后,剩下21.3%的数据集。经过预处理后,主样本中仍有271209个拍卖。表1总结了该样本的特征。为了覆盖初始数据集的更大部分,我们在第5.2节将我们的投标泄漏估计策略扩展到有2名参与者参与的拍卖。总的来说,我们分析了大约48.3%的数据集,主要不包括有1名参与者的拍卖。3.2. 探索性分析。在本节中,我们提供了数据中可疑模式的图示。我们从出现投标漏报时预计的前两种模式开始:中标人在接近截止日期时投标,他们更有可能是最后一个投标。对于至少有4名竞拍者的拍卖,我们绘制了中奖者、第二、第三和第四名的竞拍时间(图3a)。所有投标人更有可能在采购拍卖中泄露信息10(a)投标时间(b)投标顺序图3。在至少有4名竞拍者的拍卖中,竞拍的时间和顺序:在(a)中,你可以看到中奖者、排名第二的人和其他人的竞拍时间分布;时间网格为1小时。在(b)中,你可以看到最后一个竞价的可能性,即第二名和其他人。在截止日期前的最后一个小时内投标的可能性比其他任何时间都大,但胜利者比其他人更有可能这样做。胜利者最后出价的可能性也高出约5%(图3b)。对于不同投标人数量的拍卖,这5%的差距几乎相同(表2)。接下来,我们考虑第三种模式:在有出价泄露的拍卖中,胜利者更有可能削价——以小幅度获胜。

14
nandehutu2022 在职认证  发表于 2022-6-14 05:47:38
同样,对于至少有5名投标人的拍卖,我们绘制了前4位的投标保证金,作为其服务价格的百分比(图4a、4b)。在全样本(图4a)中,我们观察到相对于其他赢家,赢家有3种风格化的模式:赢家更有可能有较小的投标保证金(低于底价的0.5%),不太可能有中等的投标保证金(低于底价的10%),更有可能有较大的投标保证金(高于底价的10%)。当我们将样本限制在胜利者最后出价的拍卖中时(图4b),这些模式变得更加明显。在这里,中标人的数量很大。投标人的顺序反映了第2.3节中模型的直觉:由于出价和时间被估值弄糊涂了,中标人更有可能出价接近死线,而不是排名第二的人,排名第三的人更有可能出价,以此类推。此外,第二名和第三名之间的差异与第三名和第四名之间的差异相同,这说明了第4节的平价假设。唯一的例外是有两个竞拍人的拍卖,但这些拍卖对串通更为可疑:例如,在5%的拍卖中,两个出价都等于底价,而较早的出价则因违反规则而获胜。采购拍卖中的投标泄漏11(a)所有拍卖(b)中标的拍卖最后图4。在至少有5名投标人的拍卖中,连续竞价之间的保证金更可能具有较小的竞价保证金(低于底价的1.5%),不太可能具有中等的竞价保证金,并且与其他投标人一样具有较大的竞价保证金。投标泄漏的存在可以解释这些模式。如果中标人最后一次出价,因此可能知道所有泄露的出价,他们更有可能拥有非常小的投标保证金;如果胜利者没有最后一次出价,因此至少不知道一次出价,那么他们更有可能获得较大的投标保证金。4.

15
能者818 在职认证  发表于 2022-6-14 05:47:40
投标漏失估计这里我们描述了我们的两阶段投标漏失估计策略。该策略在算法1中进行了汇总。主要是,我们将亚军(第二名)视为公平(积极)参与者,将获胜者视为公平(积极)和腐败(消极)参与者的混合体,从而将问题归结为积极的未标记分类。我们遵循Ivanov(2019)forgeneral Purple中提出的最先进的DEDPUL程序。在程序的第一阶段,训练了一名有监督的二元分类器,以区分优胜者和亚军。对数据集中所有获奖者的这一分类进行了预测。在独立性或奇偶性假设下,这些预测可被视为有偏差的投标泄漏概率,作为异常得分。在第二阶段,通过估计亚军和优胜者预测的概率密度函数(pdf)比率,将预测转换为双向泄漏概率。与最初的DedPalmProcedure相比,我们的策略有一个至关重要的区别。后者认为,投标漏报是优胜者和亚军对评级者产生分歧的唯一原因。

16
nandehutu2022 在职认证  发表于 2022-6-14 05:47:43
然而,由于我们已经准备好了采购拍卖中的泄露12算法1投标泄露估计1:输入:优胜者样本X,亚军X,安慰剂优胜者Xp,安慰剂runnersup Xp2:输出:损坏拍卖的比例α,每个优胜者损坏的概率{pbl(X):X∈ 十} 3:分级器。训练(X,X)\\\\区分优胜者和亚军的分级员4:Y,Y=分级员。预测(X),分类。预测(X)5:Yp,Yp=分类。预测(Xp),分类。预测(Xp)\\\\预测获胜概率;以交叉验证方式将训练和预测应用于不同的褶皱6:f,f,fp,fp=kde(Y),kde(Y),kde(Yp),kde(Yp)\\\\使用核密度估计估计估计预测的概率密度函数7:p(y)=fp- fp\\\\8处密度差异:(y) =p(y)\\\\应用奇偶校验假设9:α=0 \\\\初始化优先级10:重复\\\\ EM算法识别前后11:αprev=α12:pbl(y)={maxh1-(1-α) (f(y)+(y) )f(y),0i:y∈ Y} \\\\E-step13:α=| Y | Py∈Y(pbl(Y))\\\\M-step14:直到|αprev- α|<公差\\\\我们使用公差=1e-515:返回α,pbl(y)\\\\ pbl(y)=pbl(x),即分类保留后验值,正如普罗旺因(Ivanov 2019)在第2.2节和第2.3节中所讨论的那样,情况可能并非如此,即使在公平拍卖中也可能存在差异。为了说明这一点,我们在分析中引入了第2.2节中定义的合成安慰剂拍卖,这些拍卖被认为是公平的,并相应地修改了程序。第4.2.4.1节详细讨论了这些修改。第一阶段:优胜者vs亚军。在第一阶段,我们培训分级员区分优胜者和亚军的出价。分类师接受培训的特点(表3)是专门设计的,以反映可能的出价泄露模式,同时只揭示了很少的空中拍卖信息。

17
nandehutu2022 在职认证  发表于 2022-6-14 05:47:47
具体来说,这些功能的出价最后?投标时间反映了腐败参与者收集所有其他投标信息的意图。投标保证金的较小值反映了底切。以前遇到的功能?反映了购电方-参与者重复合作的可能性。请注意,有关是否有两名参与者来自同一活动的信息故意丢失。分级者不会在每次拍卖的两名参与者中选择获胜者。相反,它确定了采购拍卖中每一次挫折都会导致泄漏的可能性13表3。功能描述名称类型范围描述上次出价?二进制{0,1}参与者是否在其他参与者之后出价?以前见过?二进制{0,1}以前曾与该购电方参与拍卖?竞价时间从竞价到死线持续[0,1440]分钟竞价保证金与后续地点的竞价持续[0,0.05]差异,由参与竞价的保留价人数调整为参与竞价的人数注:竞价保证金从上到下被削减为0.05:大于0.05的值被设置为该阈值。同样,投标时间缩短为1440分钟(1天)。这应该包括关于公平拍卖的信息。分析中不包括有1名参与者的拍卖。数据集中的功能属于优胜者,而不是亚军。因此,分类器将原始多维数据压缩为预测概率的一维。在明确估计这些预测的PDF时,这在第二阶段变得至关重要。作为主要分类器,我们通过Adam optimizer(Kingma和Ba 2015)训练了一个前馈神经网络(Paszke et al.2019),该网络由2层256个神经元组成。通过5倍交叉验证,预测数据集中所有优胜者和亚军获胜的可能性。

18
可人4 在职认证  发表于 2022-6-14 05:47:49
在第二阶段,我们建立了这些预测与投标泄漏概率之间的联系。此外,我们将决策树的梯度推进(Chen和Guestrin2016)作为一个分类器来检查估计的稳健性。我们训练了60棵树,每棵树的深度限制在5级。4.2. 第二阶段:将分类师的预测转化为投标泄漏概率。我们展示了如何使用获胜者分类法来估计出价泄露的先验概率和后验概率,在任何拍卖中都不会事先知道这两种概率。首先,我们介绍符号并正式定义问题。在第一阶段,分类师根据特征x的相应向量估计参与者获胜的概率(表3)。将获胜概率表示为y(x)。将采购拍卖中优胜者和亚军泄漏的y(x)分布PDF分别表示为f(y)和f(y)。为简单起见,这些也可以被视为初始特征x分布的PDF。正如前面所讨论的,我们认为亚军是公平的参与者(因为我们的目标是只检测成功的投标泄漏),而中奖者可能同时包含欺诈和腐败的参与者。此外,赢家和公平拍卖亚军的y(x)分布也可能有所不同。这通常可以在以下混合模型中表示:(1)f(y)=fbl(y)(2)f(y)=αfbl(y)+(1- α) fbl(y)=αfbl(y)+(1- α) (f(y)+(y) )(3)(y) =fbl(y)- fbl(y)=fbl(y)- f(y),其中α表示投标泄漏的先验概率;下标bl表示投标漏报,即。

19
可人4 在职认证  发表于 2022-6-14 05:47:52
不公平拍卖;下标1和2表示优胜者和亚军;f(y)和f(y)表示优胜者和亚军的分类预测y(x)的PDF;fbl(y)、fbl(y)和fbl(y)分别表示腐败赢家、公平赢家和公平runnersup的PDF;(y) 表示公平拍卖中优胜者和亚军的PDF之间的差异。方程式(1)意味着所有亚军都是公平的。方程式(2)表示赢家是腐败和公平参与者的混合物,混合比例为α。假设相关性将产生fbl(y)=fbl(y)。由于我们发现证据表明它没有任何作用,我们引入(y) 而不是方程式(2)的右侧部分。这是方程式(3)中的定义,并解释了公平优胜者和亚军之间的差异。简介(y) 这正是我们的案例与标准PuClassification问题设置的不同之处。PU文献中的一个常见假设是,标记阳性和未标记阳性的分布是一致的。Elkan和Noto(2008)首次引入完全随机选择(SCAR),这与我们的独立性假设相当。SCAR的一个新兴替代方案是随机选择的(SAR)(Bekker et al.2018),它允许标记概率为开放性函数e(x),而不是常数。虽然我们也超越了SCAR,但SARS也不适合我们的设置。具体而言,SCAR在我们的数据集中不成立的原因不是因为标记概率依赖于实例,而是混合分布f(y)(优胜者)与正分布f(y)(亚军)不同,即使在没有腐败的情况下(α=0,因此x:e(x)=1)。因此,我们假设奇偶校验。采购拍卖中的投标泄漏15我们的目标是估计随机中标人被破坏的先验概率α和特定中标人被破坏的后验概率pbl(y)。

20
nandehutu2022 在职认证  发表于 2022-6-14 05:47:55
后期可以使用贝叶斯规则表示,然后使用方程(2)进行转换:(4)pbl(y)=αfbl(y)f(y)=1-(1 - α) (f(y)+(y) )f(y)在等式(4)中,可以从数据中估计‘ies f(y)和f(y),例如通过核密度估计。请注意,由于分布是一维的,因此此过程并不能避免维度诅咒。差异(y) 也不得而知,这个问题将在稍后解决;现在,把它看作是外生的。那么,(4)中唯一的未知数就是先验和后验。如DEDPUL(Ivanov 2019)所述,可通过将期望最大化算法应用于(4)来同时估计两者。该过程是初始化α=0,用(4)估计后验概率,将先验更新为平均后验概率α=nPpbl(y),并重复直到收敛,即直到先验和平均后验概率变得非常接近。我们现在讨论(y) 估算。关键步骤是构建隐式公平安慰剂拍卖的综合数据集。正如前面所讨论的,安慰剂拍卖是在真实拍卖的基础上产生的,即放弃获胜者,保留其他参与者,我们知道这是公平的。在每项假设活动中,排名第二的投标人被假定为中标人,排名第三的投标人被假定为亚军。通过将实际拍卖培训的分类器应用于PlaceBodDataset,我们可以获得其预测,以在以后分别估计安慰剂拍卖的优胜者和亚军的PDF f(2,3)和f(2,3)(下标(2,3)表示原始优胜者被淘汰),其中:(5)(y) =f(2,3)(y)- f(2,3)(y)因此,我们可以估计(y) 通过使用安慰剂拍卖。这就变得至关重要了,我们对(y) 以及(y) :奇偶校验:(y) =(y) 。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:48