异构数据源、大量数据和无数非结构化数据类型现在正在增加现有的数据管理问题,尤其是与数据治理相关的问题。现代 IT 系统尚不能处理数据质量,这直接影响从多个来源提取数据、数据准备和数据清理。持续存在的数据质量问题表明了迄今为止一直被忽视的一个关键数据管理领域:企业数据战略。
在当今竞争激烈的世界中,每个组织都需要精心设计和可持续的数据战略,以应对从最新技术渠道涌入的多源、多类型和大量数据的明显复杂性。
数据质量如何影响企业?
最近数据收集技术的激增,加上先进的基于传感器的硬件和驻扎在许多企业中的低成本数据存储设施,使得“比以往任何时候都触手可及的(企业)数据更多”,然而,可悲的事实是,大多数企业对如何处理通过日常业务流程涌入的 PB 数据感到茫然。
在机器学习在提高数据质量方面发挥着关键作用,彭博数据许可负责人 Matthew Rawlings 说:“清理和运行这些数据并在其上添加一些商业智能需要大量的手动工作。” 本文作者指出,理解“上下文”是解决大多数数据元数据不匹配的关键因素。
文章人工智能时代的数据质量. 指出“低质量数据”的后果是浪费 IT 投资、对企业数据失去信任以及无效的业务决策。尽管全球 IT 社区通过设计 AI 或机器学习 (ML) 驱动的半自动化或全自动分析系统,部分缓解了合格数据科学家的缺乏,但数据质量的根本问题仍然存在。最终用户不能也不会相信通过处理损坏、重复、不一致、丢失、损坏或不完整的数据获得的洞察力。
数据管理解决方案提供商如何应对?
DATAVERSITY ®文章企业数据质量断言无论数据技术多么先进,企业的数据资产有多么庞大,如果没有“可靠的数据质量”,它们就无法发挥作用。因此,在进行数据分析之前,应更多地关注数据收集、存储和准备实践。物联网等新技术也在影响输入数据质量,因此只有良好的数据治理才能为企业数据管理实践提供坚实的结构。
在 Gartner 的 2017 年魔力象限中,随着数据质量工具浮出水面的自助服务、大数据和机器学习的讨论今年也将继续。2018年,数据质量将越来越多地在大多数企业数据管理优先级列表中占据首位,这反过来将不断提醒解决方案供应商关注其现成平台上的数据质量问题。
大多数这些问题都必须在软件级别进行纠正。未来的高级数据管理系统有望拥有足够的数据验证“逻辑”来检查和过滤系统中的无效数据。只有通过数据战略活动获得完整的数据管理蓝图,今天占据企业数据管理愿望清单的项目才能成为系统特性或功能。
机器学习可以提高数据质量吗?
机器学习高管指南将 ML 算法描述为从可用数据中学习的自学实体。因此,数据必须准确、完整,才能成为可靠的教学资源。大数据“无法管理”的规模和数量是大多数行业运营商面临的主要挑战,但如果有良好的数据管理实践,就可以安全地应对和应对这一挑战。本指南再次确认任何机器学习算法都需要良好的数据质量才能提供准确的结果。
福布斯作家断言“价值在数据中”。为了让大数据等技术在未来的商业生态系统中取得成功,人工智能和机器学习工具必须交付成果。现在,行业领导者和业务运营商将等待机器学习系统中可用的数据质量评估和验证方法随着时间的推移而改进,以使此类系统最有用。
数据质量需要对企业分析的当前状态负责。颠覆性技术有能力捕获、整理和综合不同的数据格式(物理的、事务的、地理空间的、传感器驱动的或社交的),但这些丰富的数据集合将无法提供有用的见解,除非它们被适当地准备和清理为输入到高级 AI 或 ML 工具。
数据质量直接影响机器学习算法的结果,数据测试证明,好的数据实际上可以在开发阶段完善机器学习算法。数据质量和机器学习工具之间有着密切的联系,以及行业使用的“高质量数据”的长期货币化前景。
分析和机器学习以提高数据质量提供了一个全球零售商的案例研究,该零售商通过使用 ML 算法提高其产品和库存数据的质量来实现成本和生产效率。由 ML 算法提供支持的外包分析解决方案用于改善客户库存和产品数据。该解决方案的卖点是创新的以数据质量为中心的规则来检测和纠正不良数据。在本次实验结束时,解决方案提供商发现新系统检测并纠正了大约 30% 的试运行记录。
这BIS 研讨会论文机器学习技术如何用于自动化检测统计测量中的错误的过程。数据采集和准备、数据分析和洞察力的传递必须在一个统一的、数据验证的机器学习系统中共存。
不良数据的代价:失败的数据管理系统
数据质量与 Crowdflower 一起绽放描述了一个数据管理系统,尽管实施了数据战略/数据管理和高质量的工具,但未能提供预期的结果。失败背后的原因是数据质量,正如文章作者所建议的,必须由组织的数据所有者和数据用户共同解决。
Syncsort 产品管理总监 Harald Smith,评论说业务用户正在将好的数据和好的业务决策联系起来。为了让未来的企业在竞争差异化中蓬勃发展,企业的核心数据治理战略将发挥关键作用。
人工智能解决方案供应商可能是时候围绕数据质量问题重新设计机器学习系统和工具了。作为 Peter Isaacson,首席营销官需求基础,说,“人工智能将摧毁世界,但在它真正帮助 B2B 营销人员之前不会。”
相关帖子DA内容精选 |