在一篇关于机器学习中的偏见和公平的调查中。-作者概述了机器学习数据中的23种偏见。 信息来源很好–因此下面是一个实际的表示形式,因为我发现它确实有用
下面的全文链接
1)历史偏见。历史偏见是世界上已经存在的偏见和社会技术问题,即使进行了完美的采样和特征选择,也可以从数据生成过程中渗入。在2018年的图片搜索结果中可以找到这种偏见的一个例子,搜索女性CEO最终会减少女性CEO的图片,原因是世界500强CEO中只有5%是女性,这将导致搜索结果对男CEO有偏见。这些搜索结果当然反映了现实,但是搜索算法是否应该反映这个现实是一个值得考虑的问题。
2)代表偏见。代表偏见发生于我们定义和抽样总体的方式。像ImageNet这样的数据集缺乏地域多样性就是这种偏见的一个例子。这表明对西方国家的偏见。
3)测量偏差。度量偏差来自于我们选择,利用和度量特定功能的方式。在累犯风险预测工具COMPAS中观察到了这种偏见的例子,其中先前的逮捕和朋友/家人的逮捕被用作替代变量,以衡量“风险”或“犯罪”的程度,可以单独查看作为错误计量的代理。这是由于以下事实:少数民族社区受到更频繁的控制和监管,因此他们的逮捕率更高。但是,不应得出这样的结论:由于来自少数群体的人的逮捕率较高,因此他们更危险,因为在评估和控制这些群体的方式上存在差异。
4)评估偏差。在模型评估期间会出现评估偏差。这包括使用不合适和不相称的基准来评估应用程序(例如Adience和IJB-A基准)。这些基准都在被偏向肤色和性别的面部识别系统的评价中使用,并且可以作为用于这种类型的偏置的实例。
5)汇总偏差。当基于观察其他不同的子组得出一个子组错误的结论时,或者通常是当有关总体的错误假设影响模型的结果和定义时,就会发生聚合偏差。在临床辅助工具中可以看到这种偏见的例子。考虑在不同种族和性别之间存在明显差异的糖尿病患者,或更具体地说,广泛用于糖尿病诊断和监测的HbA1c水平在不同性别和种族之间存在复杂的差异。因此,由于这些因素以及它们在不同亚人群和人群中的不同含义和重要性,因此单一模型很可能无法最适合人群中的所有人群。即使它们在训练数据中均等地表示也是如此。关于不同种群的任何一般假设都可能导致聚集偏差。
6)人口偏见。当在数据集或平台中表示的用户总数中的统计信息,人口统计学,代表和用户特征与原始目标人群不同时,就会出现人口偏差。这种偏见的一个例子可能来自不同社交平台上的不同用户人口统计数据,例如女性更可能使用Pinterest,Facebook,Instagram,而男性更活跃于Reddit或Twitter等在线论坛。可以在中找到更多根据性别,种族,种族和父母教育背景与年轻人使用社交媒体有关的此类示例和统计信息。
7)辛普森悖论。辛普森悖论可能会使由具有不同行为的亚组或个人组成的异构数据的分析产生偏见。根据辛普森悖论,潜在的子组中观察到的趋势,关联或特征可能与这些子组聚集时观察到的关联或特征有很大不同。在加州大学伯克利分校的大学招收性别偏见诉讼期间,出现了此类悖论的最著名例子之一。在分析研究生入学数据之后,似乎对女性存有偏见,与男性相比,被录取为研究生课程的女性比例较小。但是,当各个部门的招生数据分离并进行分析时,女性申请人具有平等性,在某些情况下甚至比男性具有很小的优势。由于妇女倾向于向男女录取率较低的部门申请,因此发生了自相矛盾的情况。辛普森悖论已在包括生物学在内的多个领域被观察到,心理学,天文学,以及计算的社会科学。
8)纵向数据谬误。观察性研究通常将横截面数据视为纵向数据,这可能会因辛普森悖论而产生偏差。例如,批量Reddit数据分析揭示评论长度平均随时间减少。但是,大量数据代表了人口的横断面快照,实际上包含了不同年份加入Reddit的不同人群。当按队列对数据进行分类时,发现每个队列中的注释长度都随时间增加。
9)采样偏差。采样偏差是由于对子组的非随机采样而产生的。作为抽样偏差的结果,一个人群的估计趋势可能不会推广到从新人群中收集的数据。为了直观,请再次考虑图中的示例假设下次进行研究时,一个亚组的采样率要高于其余亚组。在第一个研究中,回归模型发现的积极趋势几乎完全消失(右侧图中红色实线),尽管子组趋势(绿色虚线)不受影响。
10)行为偏见。行为偏差是由跨平台,上下文或不同数据集的不同用户行为引起的。在中可以看到这种偏见的一个例子,作者在其中展示了平台之间表情符号表示形式的差异如何导致人们的不同反应和行为,甚至导致沟通错误。
11)内容制作偏差。内容产生偏差是由用户生成的内容的结构,词汇,语义和句法差异引起的。可以看到这种偏见的例子,其中讨论了不同性别和年龄组的语言使用差异。在国家和人群之间以及内部以及国家内部,也可以看到语言使用的差异。
12)链接偏见。当从用户连接,活动或交互获得的网络属性不同并且歪曲了用户的真实行为时,就会出现链接偏差。在作者中,展示了仅考虑网络中的链接而不考虑网络中用户的内容和行为时,社交网络如何偏向低度节点。时间偏差。时间偏差是由于人口和行为随时间的差异而产生的。在Twitter中可以看到一个示例,其中谈论某个特定主题的人们开始在某个时候使用#标签来吸引注意力,然后在不使用#标签的情况下继续讨论该事件。
13)人气偏见。最受欢迎的物品往往会暴露更多。但是,受欢迎程度指标可能会受到操纵-例如,通过假评论或社交机器人。例如,这种偏见可以在搜索引擎或推荐系统中看到,在这些系统中,受欢迎的对象将被更多地呈现给公众。但是,此演示文稿可能不是高质量的结果;相反,这可能是由于其他偏见因素造成的。
14)算法偏差。算法偏差是指在输入数据中不存在偏差并且仅由算法添加的情况。
15)用户互动偏差。用户交互偏见是一种偏见,不仅可以在Web上观察到,而且还可以从两个来源触发:用户界面,以及通过施加他/她自己选择的偏见行为和交互而通过用户本身。这种类型的偏差可能会受到其他类型和子类型的影响,例如Presentation和Rank偏差。
16)演讲偏见。表达偏差是信息表达方式的结果。例如,在Web上,用户只能单击他们看到的内容,因此看到的内容会获得点击,而其他所有内容都不会获得点击。用户可能无法在Web上看到所有信息。排名偏差。排名最高的结果最相关,最重要的想法将吸引更多的点击。这种偏见会影响搜索引擎 和众包应用程序。
17)社会偏见。当其他人的行为或内容影响我们的判断时,就会产生社会偏见。。例如,当我们想要对低分的项目进行评分或复审时,这种偏见的例子可能是,但是当受到其他高分的影响时,我们改变了评分方式,认为我们可能太苛刻了。
18)紧急偏见。出现偏见是由于使用和与真实用户互动而导致的。这种偏见是由于人口,文化价值或社会知识的变化而引起的,通常是在设计完成后的某个时候。由于用户界面倾向于通过设计反映预期用户的能力,特征和习惯,因此在用户界面中更容易观察到这种类型的偏差。
19 自我选择偏见。自选偏见是选择或抽样偏见的子类型,研究对象在其中进行自我选择。在调查者认为自己可以适当参加研究的情况下,可以观察到这种偏见的例子。例如,在一项关于聪明或成功学生的调查研究中,一些不太成功的学生可能认为他们成功参加了调查,这将使分析结果产生偏差。实际上,这种情况发生的可能性很高,因为成功的学生可能不会花时间填写调查问卷,而这会增加自我选择的风险。
(20)省略可变偏差。当模型中遗漏了一个或多个重要变量时,将发生遗漏变量偏差4。这种情况的一个示例是某人设计模型以较高的准确性预测客户将停止订阅服务的年百分比,但是很快发现大多数用户在未收到任何警告的情况下取消了订阅从设计的模型。现在想象取消订阅的原因是市场上出现了一个新的强大竞争对手,它提供了相同的解决方案,但价格却只有一半。竞争对手的出现是模型尚未准备好的。因此,它被视为省略的变量。
(21)因果偏见。由于相关性暗示因果关系的谬误,可能导致因果偏见4。在公司的数据分析师想要分析新的忠诚度计划的成功程度的情况下,可以观察到这种偏见的例子。这位分析师认为,签署了忠诚度计划的客户在公司电子商务商店中的消费要比未购买忠诚度计划的顾客多。如果分析师立即得出忠诚度计划成功的结论,将是有问题的,因为可能是只有更多的忠诚或忠诚客户(他们可能计划花费更多的钱)才对忠诚度感兴趣程序。由于这种偏见的性质及其在敏感的决策政策中的作用,因此可能会产生严重的后果。
(22)观察者偏见。当研究人员下意识地将他们的期望投射到研究上时,就会发生观察者偏差。当研究人员(无意间)影响参与者(在访谈和调查过程中)或当他们挑选有利于他们研究的参与者或统计数据时,就会发生这种类型的偏见。
(23)资金偏差。当报告有偏倚的结果以支持或满足研究机构的资助机构或财务支持者时,就会出现资金偏倚。例如,当公司员工报告其数据和统计数据中的结果有偏差以使供资机构或其他方满意时,这体现出来 。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!