楼主: 时光永痕
452 0

[数据挖掘新闻] 数据管理的现状:挑战、预测和解决方案 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

42%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在与 Ron Agresta 合作的 20 年里,数据的复杂程度已经提高了很多SAS. “在过去,这将是没有治理、质量最低的问题,而且这些能力没有得到很好的管理。现在整个细分市场都发生了变化,”他说,而且任何规模的公司都不了解数据的重要性的情况要少得多。“公司内部对数据的认识水平也在一个范围内,”他在最近的一次 DATAVERSITY® 采访中说道。有些数字原住民与数据使用和理解非常有限的人一起工作。

他讨论了一个经营了很长时间的客户,该公司拥有运行保险费率计算、执行计费操作和其他基本功能的流程。同一家公司还有另一部分业务,更多的是聚合数据、进行分析、试图弄清楚他们应该从事哪些业务以及如何获得更多收入。“因此,我们看到了公司外部、公司内部以及公司内部的情况。”

当前的挑战

Agresta 的一些客户面临的最大障碍是数据集成领域。因为SAS一直在做数据整合很长一段时间,他们最初认为整合问题已经解决。“嗯,这是真的,但不是像将数据迁移到云端这样的事情,”因为他现在让客户将部分或全部数据和相关数据流程迁移到云端。“我们有这些混合环境,在这些环境中,执行传统的数据集成流程更具挑战性,”他说。

当数据治理开始发挥作用时,它给集成部分带来了新的复杂性。“这几乎就像'旧的又是新的。' 它仍然是数据集成,但它的风格已经改变,”因为有更多类型的数据来自更多不同的数据源。数据存在于多个不同的位置,“因此我们必须在集成方面重新战斗并重新赢得这场战斗,”他说。

痛点

Agresta 说,数据质量是他的客户感到沮丧的主要原因。在2019 年人工智能预测来自 Forrester,”61% 的受访者表示数据质量是成功实施 AI 项目的最大障碍,Agresta 表示同意。“如果您没有控制数据质量等基础知识,那么您在分析方面所期望的任何魔力都不会是您所期望的,这不足为奇。”

他说,一旦数据被正确混合,它就是标准化的、准确的和最新的,而且真的有可能看到结果。除了机器学习和人工智能的炒作之外,他还看到客户决定是否以及在何处将自然语言处理等技术融入更广泛的企业数据管理和分析项目中,以获取最大价值。对于组织而言,重要的是要在“进攻性”(对数据保持敏捷和探索性)和“防御性”(数据治理和数据控制)方法之间取得正确的平衡,以解决以数据为中心的问题。

内省分析

越来越多的公司正在关注自动化,Agresta 认为需要在不增加大量员工的情况下扩展数据管理流程。简单地增加更多的人不会让组织跟上数据的持续流动。将高级分析与自动化结合使用可以减轻过度劳累的数据工程师和数据管理员的负担。分析现在可以建议可以对数据采取的措施来改进数据,而无需人工分析大量数据。

随着越来越多的用户采用向他们提出的建议,系统开始从这些操作中学习,并且可以开始自动化。“当它看到熟悉的东西时,比如一个看起来像你上周花费数小时转换的数据集的数据集,它就会知道可以做哪些事情来改进这些数据。”

这种使用分析来改进内部流程的能力可以在自助服务启用或自助服务数据准备中发挥重要作用,因为用户可能没有强大的技能组合。“他们有数据,他们想使用数据,但他们没有技术专长来做很多复杂的事情。但是,如果系统可以帮助他们,那么它可以让他们更快地完成实际工作,”他说,这使用户能够执行报告构建和高级分析等操作。

这种内省的过程不仅限于数据管理,但可用于其他领域,例如数据治理或质量改进。以这种方式使用分析并不是什么新鲜事,但 Agresta 表示,随着客户了解什么是可能的,它开始滚雪球。尽管 SAS 不是该领域的唯一供应商,但他相信他们在数据管理分析方面拥有数十年的优势。他们的解决方案组合源于希望从高级分析的角度使用最好的东西——无论是人工智能、机器学习、高级评分,还是任何可能的——并自动化这些解决方案,从而减少运行和使用的繁重。 ”  

数据保护

对数据收集和使用的额外审查使许多企业处于防御状态。许多公司几乎完全依赖于将用户放弃的数据货币化,但监管部门对这一领域的关注正在增加。“百分之七十三的美国消费者非常有兴趣了解公司如何处理他们的数据,并能够对公司如何处理这些数据进行一些控制。”

随着组织开始了解这对他们的客户有多重要,这正成为公司的主要关注点:

“如果我们正在做一个分析过程来审核输入是什么、输出是什么、模型的年龄、谁在使用它以及任何其他影响因素,那么法规要求对这些答案进行解释的情况不再罕见. 它不必归结为 if/then/else 之类的事情,但它需要足够透明。”

他说,在 2019 年及以后,预计会有更多的消费者数据保护法律以及应对技术所需的相关变化。他还预测,对于如何收集、汇总和共享数据的透明度的需求将会增加。这将需要能够向组织及其客户提供有关数据使用情况的详细报告的增强技术。

来自新技术的有意义的结果

Agresta 预测,更多的组织将尝试使用人工智能和机器学习改进数据质量和数据管理流程的技术,但他们很难看到有意义的结果。一些想要采用人工智能和机器学习的公司正在采取“扔东西看看它是否有效”的方法,而不是更深思熟虑的方法来解决关键问题。“我们可以做的任何事情来帮助我们的最终用户就使用什么算法以及如何解释结果做出正确的决定是很重要的。”

他说,在进行分析之前,很容易无意中组合不应该组合的数据,在决定如何推进之前,公司必须具备适当水平的数据分析能力。报告或其他一些分析驱动的结果。

“很容易拿起任何旧的分析模型、流程或算法并错误地应用它,因此我们不能贬低我们的工具是复杂的事实,我们必须帮助我们的最终用户以正确的方式使用它们。”

新技术应该建立在坚实的基础上,以获得有意义的结果。例如,理解和使用正确和认可的统计模型来处理异常值将直接影响结果。“在最简单的情况下,如果你没有以适当的方式处理异常值,那么在另一端出现的任何东西都是不合法的。”

数据治理的挑战

随着越来越多的数据从本地转移到云位置以及政府和行业法规,尤其是在个人数据的使用方面,数据治理是一个日益严峻的挑战。混合云或混合数据管理系统必须能够相互通信,了解数据的位置、包含的内容以及谁可以访问它。

SAS 在历史上已经为元数据集成问题开发了解决方案,现在他们还参与了一个名为埃格利亚这是致力于解决该问题的 ODPi 计划的一部分。

“我们正在与 IBM 等其他技术公司合作,提出一种开放和双向的方式来跨独立技术共享元数据。我认为这将有很长的路要走。”

他认为 Egeria 是开始解决公司面临的一些问题的好方法,这些问题包括他们拥有哪些数据、它如何与他们拥有的其他数据一起工作、允许谁查看它、它来自哪里、它有多旧以及任何可能与该数据相关联的其他属性的数量。

数据量与数据源

对于 Agresta 的大多数客户来说,数据量的挑战似乎不那么麻烦。他说,只有大约 10% 的人在数量上苦苦挣扎,而这些可以通过适度的技术投资轻松解决。其余 90% 的受访者认为数据类型变得更具挑战性。

“如果你想到结构化数据库,我们已经涵盖了这一点,这是一条众所周知的、陈旧的轨道。当你开始接触半结构化、非结构化数据、数据流、各种不同的数据源时,这些世界是如何结合起来的?” 因此,构成最大挑战的不一定是数据量,而是隐藏在数据中的东西(好或坏)可能难以处理。

Agresta 预测,我们将继续看到越来越多地使用更高级的分析功能来解决过去几年可能需要大型团队和多年研究才能解决的复杂问题。高级分析与良好的数据管理技术相结合,可以帮助检测威胁并发现未开发的机会。

Agresta 认为的优先事项SAS 前进是为了让最终用户的生活更轻松,无论是帮助云或混合商店的安全集成,确保人工智能和其他技术能够使用高质量的数据,还是帮助他们的客户利用高级分析:“推动有意义的地方的界限。看到什么是成功的,但不要忽视对整个组织的影响。”

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:解决方案 数据管理 Forrester CDA LEVEL excel函数

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 16:19