楼主: 时光永痕
434 0

[数据挖掘新闻] 机器学习时代数据质量的影响 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

57%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
当今企业数据管理中的一个重要问题是数据质量,因为业务数据需要彻底清理和准备才能用作任何分析或商业智能系统的输入。在自动化和自助式业务分析的时代,数据质量由于普通业务用户通常不具备区分坏数据和好数据的先验知识或技能,因此变得更加重要,但他们突然配备了高级分析工具,可以从成堆的复杂数据中提取具有竞争力和可操作性的情报。

异构数据源、大量数据和无数非结构化数据类型现在正在增加现有的数据管理问题,尤其是与数据治理相关的问题。现代 IT 系统尚不能处理数据质量,这直接影响从多个来源提取数据、数据准备和数据清理。持续存在的数据质量问题表明了迄今为止一直被忽视的一个关键数据管理领域:企业数据战略。

在当今竞争激烈的世界中,每个组织都需要精心设计和可持续的数据战略,以应对从最新技术渠道涌入的多源、多类型和大量数据的明显复杂性。

数据质量如何影响企业?

最近数据收集技术的激增,加上先进的基于传感器的硬件和驻扎在许多企业中的低成本数据存储设施,使得“比以往任何时候都触手可及的(企业)数据更多”,然而,可悲的事实是,大多数企业对如何处理通过日常业务流程涌入的 PB 数据感到茫然。

在机器学习在提高数据质量方面发挥着关键作用,彭博数据许可负责人 Matthew Rawlings 说:“清理和运行这些数据并在其上添加一些商业智能需要大量的手动工作。” 本文作者指出,理解“上下文”是解决大多数数据元数据不匹配的关键因素。

文章人工智能时代的数据质量. 指出“低质量数据”的后果是浪费 IT 投资、对企业数据失去信任以及无效的业务决策。尽管全球 IT 社区通过设计 AI 或机器学习 (ML) 驱动的半自动化或全自动分析系统,部分缓解了合格数据科学家的缺乏,但数据质量的根本问题仍然存在。最终用户不能也不会相信通过处理损坏、重复、不一致、丢失、损坏或不完整的数据获得的洞察力。

数据管理解决方案提供商如何应对?

DATAVERSITY ®文章企业数据质量断言无论数据技术多么先进,企业的数据资产有多么庞大,如果没有“可靠的数据质量”,它们就无法发挥作用。因此,在进行数据分析之前,应更多地关注数据收集、存储和准备实践。物联网等新技术也在影响输入数据质量,因此只有良好的数据治理才能为企业数据管理实践提供坚实的结构。

在 Gartner 的 2017 年魔力象限中,随着数据质量工具浮出水面的自助服务、大数据和机器学习的讨论今年也将继续。2018年,数据质量将越来越多地在大多数企业数据管理优先级列表中占据首位,这反过来将不断提醒解决方案供应商关注其现成平台上的数据质量问题。

大多数这些问题都必须在软件级别进行纠正。未来的高级数据管理系统有望拥有足够的数据验证“逻辑”来检查和过滤系统中的无效数据。只有通过数据战略活动获得完整的数据管理蓝图,今天占据企业数据管理愿望清单的项目才能成为系统特性或功能。

机器学习可以提高数据质量吗?

机器学习高管指南将 ML 算法描述为从可用数据中学习的自学实体。因此,数据必须准确、完整,才能成为可靠​​的教学资源。大数据“无法管理”的规模和数量是​​大多数行业运营商面临的主要挑战,但如果有良好的数据管理实践,就可以安全地应对和应对这一挑战。本指南再次确认任何机器学习算法都需要良好的数据质量才能提供准确的结果。

福布斯作家断言“价值在数据中”。为了让大数据等技术在未来的商业生态系统中取得成功,人工智能和机器学习工具必须交付成果。现在,行业领导者和业务运营商将等待机器学习系统中可用的数据质量评估和验证方法随着时间的推移而改进,以使此类系统最有用。

数据质量需要对企业分析的当前状态负责。颠覆性技术有能力捕获、整理和综合不同的数据格式(物理的、事务的、地理空间的、传感器驱动的或社交的),但这些丰富的数据集合将无法提供有用的见解,除非它们被适当地准备和清理为输入到高级 AI 或 ML 工具。

数据质量直接影响机器学习算法的结果,数据测试证明,好的数据实际上可以在开发阶段完善机器学习算法。数据质量和机器学习工具之间有着密切的联系,以及行业使用的“高质量数据”的长期货币化前景。

分析和机器学习以提高数据质量提供了一个全球零售商的案例研究,该零售商通过使用 ML 算法提高其产品和库存数据的质量来实现成本和生产效率。由 ML 算法提供支持的外包分析解决方案用于改善客户库存和产品数据。该解决方案的卖点是创新的以数据质量为中心的规则来检测和纠正不良数据。在本次实验结束时,解决方案提供商发现新系统检测并纠正了大约 30% 的试运行记录。

这BIS 研讨会论文机器学习技术如何用于自动化检测统计测量中的错误的过程。数据采集​​和准备、数据分析和洞察力的传递必须在一个统一的、数据验证的机器学习系统中共存。

不良数据的代价:失败的数据管理系统

数据质量与 Crowdflower 一起绽放描述了一个数据管理系统,尽管实施了数据战略/数据管理和高质量的工具,但未能提供预期的结果。失败背后的原因是数据质量,正如文章作者所建议的,必须由组织的数据所有者和数据用户共同解决。

Syncsort 产品管理总监 Harald Smith,评论说业务用户正在将好的数据和好的业务决策联系起来。为了让未来的企业在竞争差异化中蓬勃发展,企业的核心数据治理战略将发挥关键作用。

人工智能解决方案供应商可能是时候围绕数据质量问题重新设计机器学习系统和工具了。作为 Peter Isaacson,首席营销官需求基础,说,“人工智能将摧毁世界,但在它真正帮助 B2B 营销人员之前不会。”

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 数据质量 CDA LEVEL Rawlings GARTNER

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 15:31