随着强大的技术开始对社会产生更大的影响,它引发了对算法偏见和透明度的合理担忧 说到偏见,科技巨头亚马逊不得不摆脱它人工智能招聘系统因为它偏爱男性而不是女性。
机器学习解决方案消耗大量数据,识别最轻微的相关性并预测结果。但要提供这些结果,首先需要使用将作为基准的训练数据集对 ML 模型进行训练。如果用于教学的数据集中出现任何偏差,ML 算法只会进一步放大它,从而破坏任何基于决策的完整性基于这样的预测.
以亚马逊为例,偏见来自于向公司提交了 10 年的简历来训练系统。正如对男性主导的科技行业所预料的那样,这些简历主要来自男性。
机器学习算法使用糟糕且有偏见的数据进行训练,无法提供准确的预测。那么,您如何才能消除或最小化您的偏见?机器学习首先是数据集?
确保您的数据集具有代表性
2016 年,第一个由 AI 评判的选美比赛公布了有争议的结果——44 个获胜者,只有一个皮肤黝黑,一些是亚洲人,其余的是白人。然而,参与者来自 100 个不同的国家,其中包括来自印度和非洲的大型团体。虽然该算法并没有被刻意训练为更喜欢白人,但训练数据中没有足够的少数族裔来确定人类的美貌。
使训练数据集具有代表性和平衡性是可行的 ML 模型的关键,该模型不会产生意外甚至令人反感的结果。想想你的产品将服务的所有用户群体:他们都充分代表了吗?通过从最终用户的角度分析您的训练数据集,您可能会惊讶地发现一些需要收集额外数据的差距。
另一种处理数据集中不平衡的技术是重采样。为了最大限度地减少不必要的失真,您可以从称为过采样的代表性不足的少数类中添加实例,或从称为欠采样的过多表示的类中删除实例。
只保留相关变量
众所周知,性别和种族等敏感的个人属性会将偏见和歧视引入 ML 算法。上述亚马逊机器学习驱动的招聘系统显示出对女性的性别偏见。
虽然控制性别、种族或年龄等特定输入参数是必要的第一步,但这还不够。预测 ML 算法仍然可以从其他变量中学习这些偏差,因为它们是相互关联的。例如,邮政编码可能与收入和种族、职业与性别有关。将您的训练数据集分解为仅相关的组件将有助于减少潜在的差异并产生更公平的预测。
聘请外部专家
由人类创建的机器学习算法可以轻松识别其创建者的偏见。使用历史数据来预测结果的 ML 模型会无意中强化在过去的决策、指标或参数中发现的任何偏见。应该注意的是,负责决策的人越小,偏见的风险就越高。
与过去的这些不公正现象作斗争的方法之一是使您的数据科学家团队多样化。具有不同背景和生活经历的人将为手头的问题提供新鲜甚至意想不到的视角,有助于平衡训练数据集并使其更加中立。一些公司甚至从外部邀请领域专家来审核公司过去的做法,以免将过去的偏见融入到他们的机器学习算法中。
让人类保持循环
认为一旦 ML 模型经过训练并投入使用,它就不再需要人工监督是错误的。例如,预测房价的算法将需要使用最新的数据定期重新训练,因为价格往往一直在变化,而且预测会在你不知不觉中变得不准确。
为确保您的机器学习算法继续提供准确、公正的结果,您需要保持警惕并继续监控您的机器学习模型,即使在发布后也是如此。通过根据一组反映非歧视的指标经常检查您的算法性能,您将能够通过从训练数据集中隔离和删除有问题的变量来及早检测偏差并纠正 ML 模型。
包起来
机器学习是一项强大的技术,非常适合我们的数据驱动世界,并帮助企业将大量数据转化为易于理解的见解。但随着大数据推动机器学习算法,数据偏差仍然是 ML 的致命弱点。
偏差倾向于通过敏感属性、相互关联的变量以及代表不足或过度代表的类别渗入训练数据集。为避免将这种偏差纳入 ML 算法,请清理您的训练数据,识别潜在的失真,并采取措施消除它们。
相关帖子DA内容精选
|