楼主: 时光永痕
2622 0

[数据挖掘新闻] #machinelearning 和 #deeplearning 的 23 个数据偏差来源 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

56%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1) 历史偏见。历史偏见是世界上已经存在的偏见和社会技术问题,即使给出了完美的采样和特征选择,也可以渗透到数据生成过程中。这种偏见的一个例子可以在 2018 年的图像搜索结果中找到,其中搜索女性 CEO 最终导致女性 CEO 图像减少,因为财富 500 强 CEO 中只有 5% 是女性——这将导致搜索结果偏向于男性CEO 。这些搜索结果当然反映了现实,但搜索算法是否应该反映这种现实是一个值得考虑的问题。



2) 代表性偏差。代表性偏差发生在我们定义和抽样总体的方式上。ImageNet 等数据集缺乏地理多样性就是这种偏见的一个例子。这表明了对西方国家的偏见。



3) 测量偏差。测量偏差发生在我们选择、利用和测量特定特征的方式上。在累犯风险预测工具 COMPAS 中观察到了此类偏见的一个例子,其中先前的逮捕和朋友/家人的逮捕被用作衡量“风险”或“犯罪”水平的代理变量——这本身可以被视为作为错误测量的代理。这是因为少数族裔社区受到更频繁的控制和监管,因此他们的逮捕率更高。但是,不应得出结论,因为来自少数群体的人被捕率较高,因此他们更危险,因为这些群体的评估和控制方式有所不同。



4) 评价偏差。评估偏差发生在模型评估过程中。这包括使用不适当和不成比例的基准来评估应用程序,例如 Adience 和 IJB-A 基准。这些基准用于评估偏向肤色和性别的面部识别系统,并且可以作为此类偏见的示例。

5)聚合偏差。当基于观察其他不同子组而对子组得出错误结论时,或者通常当对总体的错误假设影响模型的结果和定义时,就会发生聚合偏差。这种偏见的一个例子可以在临床援助工具中看到。考虑在不同种族和性别之间存在明显差异的糖尿病患者,或者更具体地说,广泛用于糖尿病诊断和监测的 HbA1c 水平在不同性别和种族之间以复杂的方式存在差异。因此,由于这些因素及其在不同亚组和人群中的不同含义和重要性,单一模型很可能不会最适合人群中的所有群体。即使它们在训练数据中的代表相同,也是如此。关于不同人群的任何一般假设都可能导致聚合偏差。

6)人口偏差。当数据集或平台中代表的用户群体与原始目标群体的统计数据、人口统计、代表和用户特征不同时,就会出现群体偏差。这种偏见的一个例子可能来自不同社交平台上的不同用户人口统计数据,例如女性更可能使用 Pinterest、Facebook、Instagram,而男性更活跃于 Reddit 或 Twitter 等在线论坛。根据性别、种族、民族和父母教育背景,可以找到更多与年轻人使用社交媒体相关的示例和统计数据。



7)辛普森悖论。辛普森悖论可能会偏向对由具有不同行为的子组或个人组成的异构数据的分析。根据辛普森悖论,在基础子组中观察到的趋势、关联或特征可能与这些子组聚合时观察到的关联或特征完全不同。在针对加州大学伯克利分校的大学招生中的性别偏见诉讼中,出现了这类悖论的一个更广为人知的例子。在分析研究生院招生数据后,似乎存在对女性的偏见,与男性同行相比,女性被录取的比例较小。然而,当对各部门的招生数据进行分离和分析时,女性申请者与男性有着平等的优势,在某些情况下甚至有一点优势。矛盾的发生是因为女性倾向于申请男女录取率较低的部门。辛普森悖论已在包括生物学在内的多个领域中观察到、心理学、天文学和计算社会科学。

8) 纵向数据谬误。观察性研究通常将横断面数据视为纵向数据,这可能会因辛普森悖论而产生偏差。例如,分析大量 Reddit 数据显示评论长度平均随着时间的推移而减少。然而,批量数据代表了人口的横截面快照,实际上包含在不同年份加入 Reddit 的不同群组。当数据按群组分类时,发现每个群组中的评论长度会随着时间的推移而增加。

9) 抽样偏差。抽样偏差是由于子组的非随机抽样而产生的。作为抽样偏差的结果,为一个群体估计的趋势可能无法推广到从新群体收集的数据。为直观起见,再次考虑图中的示例假设下次进行研究时,其中一个子组的抽样频率高于其他子组。第一项研究中回归模型发现的积极趋势几乎完全消失(右图中的红色实线),尽管亚组趋势(绿色虚线)不受影响。



10) 行为偏见。行为偏差源于跨平台、上下文或不同数据集的不同用户行为。可以在 中观察到这种类型的偏见的一个例子,作者展示了平台之间表情符号表示的差异如何导致人们的不同反应和行为,有时甚至导致沟通错误。



11) 内容生产偏差。内容生产偏差源于用户生成的内容在结构、词汇、语义和句法方面的差异。这种偏见的一个例子可以在讨论不同性别和年龄组的语言使用差异的地方看到。语言使用的差异也可以在国家和人群之间和内部看到。

12)链接偏差。当从用户连接、活动或交互中获得的网络属性不同并且歪曲了用户的真实行为时,就会出现链接偏差。作者展示了当仅考虑网络中的链接而不考虑网络中用户的内容和行为时,社交网络如何偏向于低度节点。时间偏差。时间偏差源于人口和行为随时间的差异。在 Twitter 中可以观察到一个例子,人们谈论特定主题时会在某个时候开始使用主题标签来吸引注意力,然后在不使用主题标签的情况下继续讨论该事件。


13) 人气偏差。更受欢迎的项目往往会被更多地曝光。然而,流行度指标会受到操纵——例如,虚假评论或社交机器人。例如,这种类型的偏见可以在搜索引擎或推荐系统中看到,在这些系统中,流行的对象会更多地呈现给公众。但是这个演示文稿可能不是质量好的结果;相反,这可能是由于其他偏见因素造成的。

14)算法偏差。算法偏差是指输入数据中不存在偏差并且纯粹由算法添加。

15) 用户交互偏差。用户交互偏见是一种偏见,不仅可以在 Web 上观察到,而且可以从两个来源触发 - 用户界面和通过用户本身通过强加他/她的自我选择的偏见行为和交互。这种类型的偏见可能会受到其他类型和子类型的影响,例如展示和排名偏见。

16)呈现偏差。呈现偏差是信息呈现方式的结果。例如,在 Web 上,用户只能点击他们看到的内容,所以看到的内容会获得点击,而其他所有内容都不会获得点击。也可能是用户看不到 Web 上的所有信息。排名偏差。排名靠前的结果最相关和最重要的想法将导致比其他结果吸引更多的点击。这种偏见会影响搜索引擎 和众包应用程序。

17) 社会偏见。当其他人的行为或来自他们的内容影响我们的判断时,就会发生社会偏见。. 这种偏见的一个例子可能是我们想要对一个低分的项目进行评分或评论,但是当受到其他高评分的影响时,我们会改变我们的评分,认为我们可能过于苛刻了。

18) 紧急偏差。紧急偏见是由于使用和与真实用户的交互而发生的。这种偏见是由于人口、文化价值观或社会知识的变化而产生的,通常是在设计完成后的某个时候。这种类型的偏见更有可能在用户界面中观察到,因为界面往往通过设计反映潜在用户的能力、特征和习惯。

19自我选择偏差。自我选择偏差是研究对象选择自己的选择或抽样偏差的一个子类型。在调查人员决定他们可以自己适当地参与一项研究的情况下,可以观察到这种类型的偏见的一个例子。例如,在一项关于聪明或成功学生的调查研究中,一些不太成功的学生可能认为他们成功地参加了调查——这会导致分析结果产生偏差。事实上,这种情况发生的可能性很高,因为更成功的学生可能不会花时间填写会增加自我选择风险的调查

(20) 省略变量偏差。当一个或多个重要变量被排除在模型之外时,就会出现遗漏变量偏差 4。这种情况的一个例子是,有人设计了一个模型,以相对较高的准确度预测客户停止订阅服务的年百分比率,但很快观察到大多数用户在没有收到任何警告的情况下取消订阅从设计的模型。现在想象一下,取消订阅的原因是市场上出现了一个新的强大竞争对手,它提供了相同的解决方案,但价格只有一半。竞争对手的出现是模型没有准备好的。因此,它被认为是一个遗漏变量。

(21) 因果偏差. 因果偏差 4 可能是由于相关性意味着因果关系的谬误而发生的。在公司的数据分析师想要分析新的忠诚度计划的成功程度的情况下,可以观察到这种偏差的一个例子。分析师发现,与未注册的客户相比,注册忠诚度计划的客户在公司电子商务商店的花费更多。如果分析师立即得出忠诚度计划成功的结论,那将是有问题的,因为可能只有更忠诚或更忠诚的客户,他们可能本来打算花更多的钱,才会对忠诚度感兴趣程序放在首位。由于其性质及其在敏感决策政策中可能发挥的作用,这种类型的偏见可能会产生严重后果。

(22) 观察者偏见。当研究人员下意识地将他们的期望投射到研究上时,就会出现观察者偏差。当研究人员(无意地)影响参与者(在采访和调查期间)或当他们挑选有利于他们研究的参与者或统计数据时,就会发生这种类型的偏见。

(23) 资金偏差。当报告有偏见的结果以支持或满足研究的资助机构或财务支持者时,就会出现资助偏见。例如,当公司的员工 为了让资助机构或其他各方满意而在他们的数据和统计中报告有偏见的结果时,就会出现这种情况。


编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Learning earning machine Learn Earn

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 13:13