楼主: 大多数88
999 11

[经济学] 去偏分类器:现实与期望不一致吗? [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
71.3197
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-4-16 11:32:19 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
我们给出了一个分类器去偏方法的实证研究,表明去偏方法在实践中往往不能泛化样本外,实际上会使公平性变得更差而不是更好。对去偏治疗效果的严格评估需要广泛的交叉验证,而不是通常所做的。我们证明了这种现象可以解释为偏差-方差权衡的结果,通过施加公平性约束,方差的增加是必要的。后续实验验证了估计方差强烈依赖于受保护类的基率的理论预测。考虑到公平性--性能权衡证明了部分去偏实际上可以在实际中对样本外数据产生更好的结果这一违反直觉的概念是合理的。
---
英文标题:
《Debiasing classifiers: is reality at variance with expectation?》
---
作者:
Ashrya Agrawal and Florian Pfisterer and Bernd Bischl and Francois
  Buet-Golfouse and Srijan Sood and Jiahao Chen and Sameena Shah and Sebastian
  Vollmer
---
最新提交年份:
2021
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  We present an empirical study of debiasing methods for classifiers, showing that debiasers often fail in practice to generalize out-of-sample, and can in fact make fairness worse rather than better. A rigorous evaluation of the debiasing treatment effect requires extensive cross-validation beyond what is usually done. We demonstrate that this phenomenon can be explained as a consequence of bias-variance trade-off, with an increase in variance necessitated by imposing a fairness constraint. Follow-up experiments validate the theoretical prediction that the estimation variance depends strongly on the base rates of the protected class. Considering fairness--performance trade-offs justifies the counterintuitive notion that partial debiasing can actually yield better results in practice on out-of-sample data.
---
PDF下载:
--> English_Paper.pdf (597.9 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类器 econometrics Applications Econometric classifiers

沙发
大多数88 在职认证  发表于 2022-4-16 11:32:26
去偏见分类者:现实与预期不一致吗?印度阿什里亚·阿格拉瓦尔伯拉理工学院和科学研究院@gmail.comflorian p figurstererludwig-maximilian-universitymünich,germanyflorian.pfisterer@stat.uni-Muench.debernd bischludwig-maximilian-universitymünich,germanybernd.bischl@stat.uni-Muench.defrancois buet-golfousej.p摩根伦敦,联合王国。Buet-Golfouse@jpmorgan.comsrijan SoodJ.P摩根AI ResearchyNew York,New York,Usasrijan.sood@jpmorgan.comjiahao Chenj.p摩根人工智能研究纽约,纽约,美国佳豪。陈@jpmorgan.comsameena Shahj.p摩根·艾研究纽约,纽约,美国,美国,美国。shah@jpmorgan.comsebastian VollmerUniversity of WarwickWarwick,United Kingdomsvollmer@warwick.ac。UKAbstractDeBiasers在实践中经常无法对样本外的情况进行概括,事实上会使公平性变得更糟而不是更好。对去偏治疗效果的严格评估需要广泛的交叉验证,而不是通常所做的。我们证明了这一现象可以解释为偏差变差的结果,通过施加公平性约束,方差的增加是必要的。后续实验验证了估计方差强烈依赖于受保护类的基率的理论预测。考虑公平性--性能权衡只是发现了一种违反直觉的观点,即在实践中,偏置可以在样本外的数据上产生更好的结果。1引言智能和机器学习(AI/ML)现在被用于许多规模[,]的高风险决策过程,如信贷决策[,]、医疗诊断[]和刑事判决[,,]。在这些用例中,不公平不仅仅是一个道德问题,还包括法律和法规方面[,,,]。因此,监管者已经表示他们有兴趣在这些现实世界的应用中检测和补救偏见[26,48]。偏见可以源于机器学习建模过程的任何部分,从训练数据中的排他性偏见[5,13,41]到强化历史和系统歧视的问题发现或反馈循环[,,,]。为了解决模型中的偏差,必须识别出更高的公平性度量[,],然后选择一种方法来降低模型相对于预打印的偏差。根据Review.arxiv:2011.02407 v2[CS.LG]2021年5月31日。然而,这两个方面在实践中都具有挑战性。对于一个特定的应用程序,并不总是显而易见的是哪些公平规则是相关的[,],而纠正偏见通常是有代价的。例如,信用决策模型必须准确才能可行,这就激励了公平的概念,如机会平等。同时,在不正确的决策中存在与偏见相关的声誉风险和监管风险,导致考虑均衡的假否定率和均衡的假阳性率[]。由于众所周知的不可能定理[,],这些不同的公平性规定不能同时满足。此外,如果一个去偏模型的性能下降太多,它将不会在实践中使用。因此,在实践中,我们不仅要考虑公平性与公平性的权衡,还要考虑公平性与性能的权衡,以确定最佳的去偏模型[40,30]。假设。度量可以在一开始就明确地被发现,并且3)补救只是在单个时间点,去偏已经足够深入研究了。其他工作则发现了主要机器学习软件库中缺乏对公平性或去偏问题的本地支持所带来的技术挑战,但没有考虑方差或敏感性问题[]。

藤椅
可人4 在职认证  发表于 2022-4-16 11:32:32
最近,Rodolfa等人[42]表明,在现实世界的项目中,查全率奇偶性和精确度@kare之间的权衡往往很小。鉴于这一工作,我们因此惊讶地看到像Infigure2这样的结果,这表明Classi firegers可以表现出改进或恶化公平性的任何组合,上面提到的firegure,仔细估计这种误差对于正确评估去偏方法至关重要。以前的工作已经研究了公平的分布鲁棒优化[]和依赖于数据的约束泛化[],我们着重于泛化的非公平算法。我们的贡献。在第2节中,我们展示了如何推广现有的去偏器以适用于公平,这可以适用于人口奇偶性之外的其他公平规则,并识别重新加权不能推广的公平规则。我们还介绍了一个新的NLinProg debiaser,它推广了均衡赔率debiaser,能够同时处理多个公平性和性能度量。在第三节中,我们给出了九个差异的详细的实证研究。第四节,我们给出了我们的主要理论结果定理1,表明我们在实证中观察到的结果可以归因于偏差-方差权衡。在第5节中,我们验证了这个分析中的一个预测,即去偏见的能力随受保护类的基本速率而变化。在部分去偏的概念中。我们还用实验的方法证明了这一有悖直觉的结果。在本文的整个论述中,我们引入了其他相关的工作,而不是专门的一节。记号法。一般来说,书法字母类似于adenote一个集合,大写字母sadenote一个变量,是setA的一个元素,小写字母sadenote一个变量取的值。设∈S={0,1}X∈XS,Y∈Y={0,1}为二元结果变量,Y∈Y为估计量。而Weys则发现类。此外,letZ=(X,Y)∈Z=X×yandw=(X,Y,S)∈W=X×Y×S,deformed的wn是n个点的样本内(训练)数据,d?∈wn?是n个点的样本外(测试)数据,letf:X×S→Y是标准的维数非负单形。letf:X×S→Y是S感知类函数的函数空间,其中每个元素f∈f是一个类函数,而f:X→Y是S无关类函数的函数空间,而deformed的wn是n个点的样本内(训练)数据d?是n个点的样本外(测试)数据d?是n个点的样本内(测试)数据d?是n个点的样本外(测试)数据。EachS-oblivious classiforf∈F与一个关注琐事的classiforf∈F:F(x,s)=F(s)有1:1的关系,它简单地忽略了这个参数。我们只在必要的地方区分有意识的和遗忘的分类器。此外,我们还可以看到一些分类器家族,Andida:A→Abe集上的恒等式函数。去偏函数。letgpre:x×s→Xbe是预处理去偏函数,gpost:y×s→Ybe是后处理去偏函数,g:F→Fbe是处理中去偏函数,这是一个损失函数。`:F×w→r+性能损失,如铰链或二项式偏差,φh:r→=r+是与公平性度量相关的损失函数。设γ:F×wn→[0,1],γ(F,D)是数据集上类别的精确度,τh:F×wn→[0,1],τh(F,D)是公平性度量ned在定义2中对应于公平性定义h。

板凳
能者818 在职认证  发表于 2022-4-16 11:32:39
当从上下文中清楚时,参数f和D将被删除,以求简短。1.1公平性定义&公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性公平性预测奇偶性(PP)[17]Pr(Y=1Y=1,S=S)=Pr(Y=1Y=1)人口均等率(DP)[14]Pr(Y=1S=S)=Pr(Y=1)平均假阴性率(EFNR)[17]Pr(Y=0Y=1,S=S)=Pr(Y=0Y=1)预测等式(PE)[17]Pr(Y=1Y=0,S=S)=Pr(Y=1Y=0)机会等式(EOp)[25]Pr(Y=1Y=1,S=S)=Pr(Y=1Y=1)均衡赔率(EOd)[25]EOp和PETable 1:本文中使用的组公平性定义。我们在表1中只给出了我们将在本文中研究的公平性定义。除了选择一个合适的公平标准外,我们还必须选择一些损失函数φ来量化与完全公平之间的差异。其中一个函数是考尔德斯-韦尔差距[])dp=Pr(y=1s=1)-Pr(y=1s=0),它只是定义人口均等的等式两边的差异,当完全公平存在时,它就消失了。除绝对1.2前、中、后处理去偏方法外图1:作为去偏方法的概述。中间:正在处理的方法。底部:后处理方法。Aequitas[]、IBM AI Fairness360[]、Microsoft Fairlearn[]和AmazonSageMaker Clearnial[]等工具包提供了许多分类为预处理、处理中和后处理的方法,如图1所示。无偏见。预处理去偏器使用一些函数来转换输入特征X:X×S→X,然后将转换后的特征作为输入馈送到一个被遗忘的类f:X→Y。去偏的类然后是组合f:X×S→Y,f=f=Gpreater的输出,Y∈Y,然后使用一些函数来转换这个输出:Y×S→Y,去偏的类然后是组合f:X×S→Y,f=GPOST→(f×IDS),由此标识函数超过受保护的类。最后,anin-processing debiaser使用函数到函数:(X→Y)×W→(X×S→Y)作为包含原始遗忘类的函数组合,将一些遗忘类转换为具有感知但被遗忘的类f=G(f)。一些正在处理的去偏类,如偏见去除[]进一步要求去偏类是遗忘的,这相当于去偏类f(X,S)=f(X)独立于salways。在预测y和正在处理的去偏器转换分类器f中,我们用两个去偏算法作为一般原理的说明来结束介绍。重新加权(RW)是一个预处理去偏器,用于加强人口均等(DP)[]。由于DP在yandsa独立时被满足,重新加权分配每个数据pointia权重DP,i=Pr(Y=yi)Pr(S=si)/Pr(Y=yi,S=si),改变与(Y,S)均衡赔率(EOd)相关联的度量是一个后处理去偏器[,],该后处理去偏器计算概率Pr(Y Y,S)预测Y应该被恢复以产生满足均衡公平性的去偏预测Y,同时使yas尽可能接近Y。2广义去偏器重新加权前处理器和均衡赔率后处理器专门用于特定的公平,人口奇偶性和相等的赔率。2.1用于预处理的广义重权重1.2节中的重权重预处理可以很容易地扩展到组公平性的一些其它处理,但不是全部。例如,在考虑y??SY=1而不是y??的情况下,立即推广机会均等权重(EOp)而不是DP。

报纸
mingdashike22 在职认证  发表于 2022-4-16 11:32:45
对于公平性requiresPr(Y=1s=0,Y=1)=Pr(Y=1s=0,Y=1),相应的重称方案是简单的,i=Pr(Y=yi)/Pr(Y=yiS=si,Y=1)。然而,对于均衡赔率(EOd)来说,没有这样的重称方案,它要求EOp和PE都保持。每个方程都要求自己的重称方案,与前一个方程和第二个方程一样,i=Pr(Y=yi)/Pr(Y=yiS=si,Y=0),这将与加权函数I=i不同。因此,重新称重作为一种精确去偏的方法,对两种复合材料都不起作用。因此,在不同的加权方案之间考虑某种插值方案的可能性是很自然的。我们将在后面的6.2.2节中重新讨论这一思想,用于后处理的非线性程序(nlinprog;NLP)NLinProg用于同时去偏群公平性的任意组合。算法1 NLinProg后处理去偏输入:预测y,受保护的类S,性能损失{`(i)}i,和公平性损失{φ(i)}i。输出:偏离预测Y.1:计算解z=(Pr(y=y,y=y=s))y,y,sto PFOP(1).2:对于每个预测y=y,带有受保护的类标签=s,选择相应的debiasedprediction y=y,具有概率Pr(y=y y=y,1.性能公平性最优问题(PFOP)是确定公平混淆张量(FACT)z=(T P,F N,F P,T N,T P,F N,F P,T N)/N[]解出:Arg minz∈xi(R)i`(i)(z)+xjλjφ(j)(z),(1),其中P/N=Pr(y=1,y=1,S=0)是S=0的归一化真正项,对于z的其他项,={z∈r:z≥0,kzk=1}是标准的非负`(i):→r+μiφ(i):→r+是相应的拉格朗日乘子λj的公平性损失。我们在Julia编程语言[]的JuMP[]框架中实现了算法1,它使用Ipopt[]进行内点优化。MIT许可的开放源码实现可在GitHub上获得。除非另有说明,否则我们随后的实验专门针对一个精度损失`(1)(z)=1-γ(z),其中γ(z)=pi(T pi+T Ni)/nis通常的精度要求,以及公平性损失φ(1)(z)=1-τh(z),其中τ他是一个量,我们现在将对其进行定义。定义2。对于FACTz,definnezs=s=(T Ps,F Ns,F Ps,T Ns)/nas限制ztos=sh:[0,1]→Rh(zs=1)=h(zs=0)。然后,给出了Fairnesshatzis=h(z)=h(zs=1)-h(zs=0)的对称公平性GAP,以及求出zisτh(zs=0,zs=1)=min h(zs=1)/h(zs=0),h(zs=0)/h(zs=1).的对称比度量。我们省略了这个简单事实的证明。此外,τ在其论点中具有对称性,这就不需要假定任何一个阶级都普遍享有特权。从上下文出发,我们将(由于符号的滥用)把上面的内容写成τh(z)。例1.人口统计学变量ypr(y=1s=1)=Pr(y=1s=0)可以用函数hDP(zs=s)=Pr(y=s=s)=(T Ps+F Ps)/(T Ps+F Ps+F Ns+T Ns)来表示ashDP(zs=1)=hDP(zs=0)。我们不建议NLinProg用于一般用途-正如我们在第3节中所看到的,它的性能通常是帕累托次优的,因为它既不产生最公平的分类器,也不产生最准确的分类器。然而,对于我们的实验,NLinProg作为一个有用的结构来研究后处理方法的一般行为。3去偏方法的经验评估。我们现在评估三个代表性的去偏器,RW、EOd(如1.2节所述)和NLP(算法1)在表2所示的九个不同的去偏实验上的性能,这些实验代表了不同的公平性标准、数据集和去偏策略。当使用Python toolkitsAequitas[]和Faility 360[]运行类似实验时,我们观察了本节中的现象,并仔细地重新实现了我们自己的Julia实现中的算法(在补充中提供),以验证这些影响不是未诊断的实现bug的结果。

地板
可人4 在职认证  发表于 2022-4-16 11:32:51
我们给出了我们自己实现的结果,这些结果证实了Python代码中的类似代码。为每个实验训练的分类器是一个随机森林分类器,使用MitlicensedDecisionTree.jl[]Julia包估计,该包实现了标准分类器和开发公平的真实世界模型的重要部分[,],我们将所有超参数保持在相同的τ/τ去偏和原始分类器上,τ在定义2中被定义,采样误差的比率分别为γ/γ。与以往的许多研究不同,我们侧重于原始和去偏分类器的样本外行为,如果去偏分类器有统计学意义的治疗效果,则通过计算度量τ来估计泛化误差;我们的实验证明了这种必要性,详见补充结果。图2总结了我们的实验结果。在每个子图和点类型中,每个点对应于完全相同的classi fierer类型,以完全相同的方式偏离,但重复了100个不同的训练测试分裂,产生于十次十倍交叉验证(10 CV10)。为双盲同行审查而编辑的URL。数据集受保护的类公平度量来源成人收入性别PP[21,32]b德国信贷市场状况EFOR[21]c葡萄牙银行营销性别EFOR[21]d COMPAS种族EFPR[3]e贷款违约性别EFOR[21]f学生表现性别EFNR[21]g社区和犯罪racepctblack EFPR[21]h弗雷明汉心脏研究男性EFOR[20]i医疗支出种族EFOR[6]表2:在第3节的基准研究中使用的数据集和相关公平性度量的实验列表。abcdegihfeodnlp RW图2:使用随机森林分类器的第3节和表2的实验的公平性比τ/τ(垂直轴)与准确度比γ/γ(水平轴)的曲线图,显示其中的加权(RW)、均衡赔率(EOd)和NLinProg(NLP)去偏器都不能一致地去偏所有的实验。因此,只有用于模型训练的特定数据子集和用于评估的测试数据才会产生变化。厚厚的交叉毛代表理想的完美公平和准确性,灰度区域代表一个标准差分布在褶皱上。狭长的交叉毛发指出了γ=γ和τ=τ的点,即脱偏器没有任何治疗效果,我们认为τ>τ和γ≈γ,即公平性应该得到改善,但我们看到,对于A、E、H和I实验,没有一个脱偏器能够达到最大的公平性目标。事实上,一些实验(如A中的NLP或D中的EOd)显示出基本没有变化τ=τ表明,不仅去偏器不能保证样本外的公平性,而且即使它可以保证特定的训练-测试分裂,对于不同的测试数据,这种影响也可以完全消失。实验A、C、G、H和I也显示了公平性-准确性权衡的证据:正如公平理论所证明的那样,准确性恶化,并且图形通常描绘出一个负斜率。Kim等人[30]的充分性分析表明,所有实验在理论上都能达到完美的准确性和公平性;然而,我们可以将这种影响理解为Bayes rate duenot仅在γ/γ的方差中发生变化,但在γ>γ的许多点上也发生变化,在这些点上,去偏增加了分类器的准确性,但不是以稳健的方式。我们的结果与Friedler等人[24]一致,他们表明去偏方法容易在训练集上过度调整,因为去偏结果取决于训练/测试分裂的细节,尽管没有对这种现象的解释。我们的结果也与[]一致,他们表明重新调整超参数是必要的,总之,1)公平性度量的巨大差异需要广泛的不确定性,或者在去偏后恶化,3)去偏后精度通常会下降,有时甚至严重。

7
可人4 在职认证  发表于 2022-4-16 11:32:57
在下面的第四节中,我们对定理1中的这些现象进行了理论分析,但没有证明部分去偏处理实际上可以产生和去偏的有点反直觉的结果。4绩效-公平交易的收敛现在对我们上面观察到的现象进行了理论分析。来简化公平性约束。我们的出发点是标量优化程序λ`+(1-λ)φ,具有公平性损失φ:R→R+,例如φ(x,y)=x-y。权衡由λ参数化,在只考虑公平性(λ=0)和只考虑性能(λ=1)之间线性插值。我们想知道,在一些测试集上测量的经验权衡如何收敛到真实基础分布(Z,S)→p上测量的truetrade-off。设`,μ:h×Z×S→{0,1}是对应于性能和公平性标准的指示函数,使得当所需标准满足时,E(Z,S)→p(`(f,Z,S))=0和φ(~Z,~Z)=0,其中~zs=E(zs=0)→p(μ(f,Z,S))。然后,种群经验风险LPfor apopulation P isLP(f)=λe(Z,S)→P(`(f,Z,S))+(1-λ)φ(~Z,~Z)。(2)`的一个例子是错误分类误差`=1{Y6=Y}(精确度的补充,{Y=Y}),而μ的例子是预测性奇偶校验,μ=1{Y=1},对应于公平性限制Pr(Y=1S=1)=Pr(Y=1S=0),即人口奇偶校验。Fairnesslossφ与在定义2中定义的对称化公平差距φhde有关,因为我们可以取φ(zs=0,zs=1)=h(zs=0)-h(zs=1)=h(z).数据集D isLD(f)=λL(m)(D)+(1-λ)φ(lm(D))的样本经验风险,lm(D)),(3)其中(m)(D)=p(z,s)∈D`(f,z,s)/mis是平均经验性能损失,l(ms)s(D)=p(z,s)∈D:s=sμ(f,z,s)/msis子群=s的平均经验公平损失,ms={(z,s)∈D:s=s}是群s=s的样本量,m=m+m=D。我们导出了ld?(f)的极限分布,并证明了它表现出某种形式的偏差-方差分解。定理1。letf:X→y是一个分类函数,`,μ是识别3的指示函数。假定我们从apopulation分布P中观察到了miid samplesD={(Zj,Sj):(Zj,Sj)→P}mj=1,`(f,Z,S)的方差是有限的,公平性惩罚函数φ至少是可微的,μ(f,Z,S)的方差是有限的。那么,样本经验损失渐近收敛于总体经验损失:τm[ld(f)-LP(f)]-Ω-Ω→m→∞n(0,Vlim(f)),具有极限变量evLIM(f)=λxs∈sπs(σ`s)+λxS6=sπsπs(LP,s(f)-LP,s(f))+(1-λ)Xsks(σμs)πs+2λ(1-λ)XsksCov(z,s)∈DS(`(f),z,s),μ(f,z,(4),其中协方差为,S∈S,DS={(z,s)∈D:s=s}di具有受保护类成员的数据子集=s,πs=PR[s=s]是受保护类s=s,LP,s(f)=E(z,s)∈DS(`(f,z,s))是样本期望损失`overds,(σ\'s)=V(z,s)∈Ds(`(f,z,s))是损失`overds的样本方差,MP,s(f)和(σμs)是损失`overds的相似均值和方差,(k,k)t=φ(MP,0(f),MP,1(f))是公平性函数真值处的梯度。这一结果可以通过反复使用中心极限定理、delta方法和Slutsky引理得到证明。充分的证明包括在补充中。限制变量中的三个项可以解释为:1)组内方差,2)通过各组损失的差异来衡量不公平的(统计)偏差,3)源于公平惩罚项的方差。最后一项随着(1-λ)ki增长,直观地捕捉到对公平性约束的敏感性如何导致方差增加。有趣的是,这些项也与基本率πS=Pr(S=S)成反比,这意味着受保护类别中的不平衡增加了变量。5对受保护类别不平衡的经验依赖性是,估计类别的标准差σ(f) ̄1/Pr(S=1)asPr(S=1)趋于零。

8
kedemingshi 在职认证  发表于 2022-4-16 11:33:03
因此,对于为估计的分类器计算的公平性度量σ(τ) ̄1/Pr(S=1)我们应该期待类似的行为。现在,我们将这种依赖关系调整到一个简单的合成数据赋能过程中,该过程允许我们在结果classPr(Y)和protectedclassPr(S)中改变基本速率。我们在20,000个数据点上使用10次重复的10倍交叉验证,并报告了τefpracross复制的标准偏差。pr(S=1)=图3:通过10倍CV在不同分数下对受保护类和阳性类的τefpractimated的标准偏差。较大的不均衡性对应于公平性度量估计中较高的方差。图3显示了公平性度量的标准差如何随着三个不同的pr(Y=1)值的baseratePr(S=1)而变化。每条曲线都具有相同的质量值(S=1)。我们的结果支持了前面的理论分析,即去偏方差受类不平衡的强烈影响,对于类不平衡和部分去偏6的分数都是如此。定理1表明,在考虑性能和公平性之间的矛盾时,构造一个方差极小化是可能的,但具有更好的推广性质。最小化关于λ的极限方差(4)通常不会产生完全的去偏器λ=1,而是一些中间的去偏强度。这一观察促使我们在本节中引入部分去偏的概念。我们现在将描述部分去偏的两个特定示例。部分重新加权。第1.2节的重新加权预处理器可以很容易地推广到产生λ=0wh,ihλ=1来简单地执行线性插值,wi=(1-λ)1+λwh,i,虽然也可以使用更奇特的插值方法。部分后处理。类似地,对于像均衡赔率(第1.2节)和NLinProg(第2.2节)这样的后处理方法,我们可以通过在0和它们之前定义的原始值之间插值衰减概率PR(y y=y,S=S)来定义一个部分去偏方案。对于线性插值,这相当于用λPr(y,y,S)代替增强概率。如下所示,我们发现了这个简单的部分重新加权λ=1的一些令人惊讶和非平凡的行为,产生了一个低方差去偏类。6.1部分去偏的经验评估图4:从为PP公平性训练的逻辑回归中导出的去偏模型的准确性-公平性图,显示了将去偏强度λ从0增加到第6节的部分去偏器的参数轨迹。我们用另一个后续实验进行了调整,报告了10倍交叉验证后的袋外度量,并训练了一个初始逻辑回归模型。然后,为了准确性和PP公平性,我们在预测奇偶性(PP)fairnesspartial NLinProg(NLP)上多次去偏这个相同的模型。图4显示了从参数化去偏强度从λ=0(无去偏)到λ=1λ=0(γ/γ,τ/τ)=(1,1)10CV10倍的三个不同轨迹。正如我们在第3节的早期实验中所看到的,在理论上应该有可能在不影响精度γ的情况下提高分类器的公平性τ。相反,我们观察到重新称重几乎没有改变模型的指标,而EOd稳定地导致恶化的PP不公平性和更差的精度。然而,公平性的恶化是意料之中的,因为我们正在对我们测量的不同指标进行去偏。相比之下,在NLinProg中debiasing和度量相同的公平性指标提高了公平性τ,但以降低精度γ为代价。

9
mingdashike22 在职认证  发表于 2022-4-16 11:33:09
在这个例子中,没有一个去偏模型接近完全公平性,Metric1/τ=1.842,这意味着训练数据和模型族根本不承认完全公平的分类器。7结论和展望我们在整个论文(特别是第3节)中提出了详细的实证研究,表明用去偏方法处理的分类器通常遭受更糟糕的样本外概括行为,以至于样本外公平性相对于原始分类器可能会恶化。WeEffect.如补编所示,公平性度量的不确定性似乎通常比精确性的不确定性大数量级,这可能会重新影响罕见的受保护类别。我们在定理1中表明,这种增加的方差可以用偏差变量来解释,偏差变量必须施加一个公平性约束,但满足该约束增加了最佳决策边界的不确定性,尤其是当基线模型已经被仔细估计并注意样本外泛化误差时。此外,我们在第5节中发现,当任何受保护的类很少时,即当基本ratePr接近零时,估计方差(4)特别严重。在实践中,如果去偏类器的性能下降太多,完全去偏也是不可取的。我们在第6节中表明,部分去偏所提供的细粒度控制允许我们学习具有理想的样本外公平性的新类别。实证结果虽然大多是负面的,但激发了对定理1的理论分析,(4)指出,方差随着受保护类别的不平衡而显著变化,据我们所知,这是一个新的结果。此外,(4)表明,部分去偏可以使我们获得一个方差最小化估计器,该估计器在不应用完全去偏处理的情况下,可以产生更好的公平性λ,这是一个有希望的研究方向,可以提高去偏方法的实用价值。相反,我们的结果也表明,以纯黑箱方式消除任意模型偏差的能力存在根本的局限性。因此,识别将受保护类与特征联系起来的潜在因果关系[54]可能是成功缓解偏差的一个更有希望的方向。我们的结果表明,要小心避免公平清洗的风险[,],即认为一个人正在使用一个由一些去偏处理产生的公平模型,而实际上该模型是过度的,并且没有很好地概括样本外的情况[]。而不是盲目地相信一个有偏见的类别,而是验证期望的公平属性在实践中是否成立。承认这项工作由德国联邦教育和研究部(BMBF)根据第01IS18036A号拨款资助。本著作的作者对其内容负全部责任。我们还要感谢我们慷慨的资助机构IQVIA、奥克兰大学、图灵和toolspractices和Microsoft。免责声明本文部分是由摩根大通公司及其AFFireates(“JP摩根”)的Arti Fiancial IntelligenceResearch group及其AFFireates(“JP摩根”)为信息目的编写的,不是JP摩根的theResearch部门的产品。摩根大通对所载信息的完整性、准确性或可靠性不作任何陈述和保证,并不承担一切责任。本文件无意作为投资研究或投资建议,或对购买或出售任何证券、金融工具、金融产品或服务的建议、要约或邀请,或用于评估参与任何交易的优点,此类管辖权或对此类人员的管辖权将是非法的。Aèvodji、H.Arai、O.Fortineau、S.Gambs、S.Hara和A.Tapp。公平洗涤:合理化的原则。《第36届机器学习国际会议论文集》,第161-170页,2019年。

10
可人4 在职认证  发表于 2022-4-16 11:33:15
URLhttp://arxiv.org/abs/1901.09749http://proceedings.mlr.press/v97/aivodji19a.[2]http://arxiv.org/abs/2007.09969https://proceedings.mlr.press/v119/anders20a.[3]J.Angwin,J.Larson,S.Mattu和L.Kichner。机器偏见,2016年5月。urlhttps://www.propublica.org/article/machine-bias-risk-assessions-inprical-signing。[4]c。Barabas,C.Doyle,J.Rubinovitz和K.Dinakar。向上学习:围绕权力问题重新定位算法公平性的研究。在2020年公平、问责和透明会议记录中,FAT*\'20,第167-176页,纽约,纽约,美国,2020年。计算机机械协会。ISBN 9781450369367。doi:10.1145/3351095.3372859.url https://doi.org/10.1145/3351095.3372859.[5]S。Barocas和A.Selbst。大数据的不同影响。加利福尼亚法律评论,104(1):671-729,201 6。DOI:10.15779/Z38BG31.[6]R。K.E.Bellamy,K.Dey,M.Hind,S.C.Hoffman,S.Houde,K.Kannan,P.Lohia,J.Martino,S.Mehta,A.Mojsilovi C、S.Nagar,K.N.Ramamurthy,J.Richards,D.Saha,P.Sattigeri,M.辛格,K.R.Varshney和Y.Zhang。AI公平360:一个用于检测2019的可扩展工具包。[7]R。Berk、H.Heidari、S.Jabbari、M.Kearns和A.Roth。刑事司法公正的风险。0049124118782533。Bezanson,A.Edelman,S.Karpinski和V.B.Shah。朱莉娅:数字计算的新方法。暹罗评论,59(1):65-98,2017。DOI:10.1137/141000671.[9]S。Bird,M.Dudík,R.Edgar,B.Horn,R.Lutz,V.Milan,M.Sameki,H.Wallach和K.Walker。Fairlearn:一个评估和改善inai公平性的工具包。技术报告MSR-TR-2020-32,微软研究,2020年9月。urlhttps://www.microsoft.com/en-us/research/publication/fairlearn-atoolkit-for-评估-改进-公平-在-ai/.[10]S比斯瓦斯和拉詹。众包平台上的机器学习模型会产生偏见吗?模型公平性的实证研究,第642-653页。计算机机械协会,纽约,纽约,美国,2020年。DOI:10.1145/3368089.3409704。布雷曼。随机森林。机器学习,第5-32页,2001。Doi:10.1023/a:1010933404324。[12]Chapman&Hall/CRC,Boca Raton,FL,1993.[13]J.Buolamwini和T.gebru。性别阴影:商业性别分类中的交叉准确性差异。《机器学习研究论文集》,81:77-91,2018.urlhttp://proceedings.mlr.press/v81/buolamwini18a.html.[14]t。Calders和S.Verwer。无歧视分类的三种朴素贝叶斯方法。陈。公平的贷款需要可解释的模型来负责任地推荐。在2018年9月第二次FATREC负责任建议研讨会的进程中。[16]J。Chen,N.Kallus,X.Mao,G.Svacha和M.Udell。无意识下的公平性:评估未观察到受保护类别时的差异。在FAT*2019-2019年公平、问责和透明度会议记录中,第339-348页,2019年。Doi:10.1145/3287560.3287594舒尔代乔娃。具有不同影响的公平预测:累犯预测工具偏倚的研究。大数据,5(2):153-163,2017年6月。DOI:10.1089/big.2016.0047.[18]S。科比特-戴维斯、E·皮尔森、A·费勒、S·戈尔和A·胡克。算法决策与公平代价。第23届ACM SIGKDD计算机机械协会国际会议论文集。ISBN 9781450348874。Doi:10.1145/3097983.3098095.url https://doi.org/10.1145/3097983.3098095.[19]训练公平性度量和其他依赖于数据的约束的良好泛化分类器。在K.Chaudhuri和R.Salakhutdinov,编辑,第36届国际会议机器学习论文集,机器学习研究论文集第97卷,第1397-1405页。PMLR,2019.[20]遗传分析研讨会13的火腿心脏研究数据。BMC遗传学,4补编1:S2,02 200 3.DOI:10.1186/1471-2156-4-S1-S2Dua和C.Graff。UCI机器学习存储库,2017年。URLhttp://archive.ics.uci.edu/ml.[22]。暹罗评论,59(2):295-320,2017。DOI:10.1137/15M1020575.[23]a。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-17 08:37