这些数据挑战的根本原因是什么?数据湖在创建人工智能开发流中扮演什么角色?黑天鹅到底和什么有什么关系?
数据和人工智能的黑天鹅
在数据科学的世界中,数据分析中一个重要且出乎意料的异常值通常被称为“黑天鹅”或黑天鹅事件——一种随机且意外发生的事件,具有广泛的影响。早在 16 世纪的伦敦,在发现黑天鹅原产于澳大利亚之前,“看到一只黑天鹅”的概念就被用作一种不可能陈述的隐喻。今天,数据分析中的黑天鹅会导致基于不完整、有限或不良数据的广泛概括。
那么,是什么导致您的数据中出现黑天鹅,最终阻碍了 AI 的实施?问题的核心通常是缺乏适当的数据战略和数据治理计划,再加上数据被随意转储到数据湖中。数据湖很少得到很好的管理或支持,湖内的信息可能是混乱的、低质量的、不可靠的、重复的和巨大的。
湖中有足够数量的高质量数据
根据 Experian 的一项研究,美国每年因不良数据造成的损失超过 3 万亿美元,而糟糕的数据质量是 AI 部署和实现不成功的主要原因。不良数据还可能导致黑天鹅在您的湖中游泳,或者停止或停止进展。然而,解决用于人工智能的数据质量说起来容易做起来难。由于跨组织数据环境的复杂性以及数据的数量和速度,管理和维护良好的数据并不容易。
数据可用性和集成斗争也可能导致黑天鹅。据 Forrester 称,数据集成是当今组织面临的头号挑战。仔细想想,数据每周 7 天、每天 24 小时都在进入组织。这些信息进入不同的系统,由不同的部门管理,有不同的功能需求,有不同的时间间隔。数据在整个组织中移动和复制,所做的更改不会与记录系统共享回。如果进入 AI 流程的湖中数据不准确、不连贯、不一致且不受信任,那么 AI 做出的决策也将不准确、不一致且不受数据社区的信任。
让黑天鹅远离数据湖
那么,企业如何才能克服这些因数据质量差和数据不可用而带来的挑战和黑天鹅呢?你怎么知道什么是正确的数据来实现人工智能提供的承诺?您如何确保您使用的信息是及时的、相关的和公正的?
制定数据策略将有助于防止黑天鹅,并为成功实施 AI 做好准备。数据战略应旨在改进组织获取、存储、管理、共享和使用人工智能数据的方式。该战略应该有一个强大的数据治理计划来支持该战略,该计划将建立、管理和交流数据政策、定义和标准,以有效地使用人工智能数据。这确保了一旦数据与其源环境分离,数据的规则和细节就会为人工智能的使用所知晓和尊重。重要的是要指出数据策略不是限制数据的可访问性和访问,而是确保数据变得更容易被数据社区访问,并且数据代表正在执行的 AI 过程的最佳数据。
一旦实施了数据战略计划,适当的数据管理将使该战略成为可能。数据管理——无论是在仓库中还是在湖泊中——通过确保有助于人工智能的数据满足并遵守数据标准并且对于人工智能决策是可靠的,为管理数据战略和治理计划提供了技术基础。这确保了 AI 流程的可见性和透明度,与数据用户和决策者建立信任,并将这些黑天鹅拒之门外。
相关帖子DA内容精选
|