楼主: 时光永痕
283 0

[数据挖掘新闻] 从数据发现到智能数据发现:下一代就在这里 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

57%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
有数据发现,然后有智能数据发现。前者已与发现隐藏在大数据中的答案联系在一起,以推动业务价值,无论是增强决策、增加收入还是改善客户体验。

智能数据发现已定义为高德纳作为“下一代数据发现功能,可为业务用户或公民数据科学家提供来自高级分析的见解。” Smart Data Discovery 结合了大脑研究、视觉感知、高级分析、机器学习、自然语言处理和自然语言生成方面的最佳成果。到今年,Gartner 认为:

“智能、受管控、基于 Hadoop、基于搜索和基于视觉的数据发现将融合为一组下一代数据发现功能,作为现代商业智能和分析平台的组件。”

罗希特·马哈詹是机器学习智能数据发现平台的 CTPO 和联合创始人,太浩湖,这使组织能够自动发现跨异构和分布式企业的数据关系。

这技术有后盾由少数机器学习专利(待批准)提供,用于超越元数据,提高对复杂数据集的可见性。Io-Tahoe 为其机器学习算法自动发现数据关系的能力提供客户评估。“经过微调,真阳性结果显着增加,而我们的假阳性结果显着减少,”Mahajan 说。

Mahajan 说,它以最智能的方式发现数据的能力之一是 Io-Tahoe 能够在关系和非关系数据存储内部和跨关系数据存储工作,这提供了这些环境中的内容的蓝图。考虑到有多少公司的数据湖已经变成了数据沼泽——充满了他们无法找到、使用和操作的数据。Io-Tahoe 也摄取遗留数据存储,例如连接到具有数十年历史的 AS400 等平台的数据存储,并期待在 Twitter 和 Facebook 等社交平台中摄取真正的非结构化数据的未来。

“我们帮助您最大化数据投资,”Mahajan 说。“我们允许组织通过数据摄取的适应性保持数据湖内的可操作性以及在那里进行的所有持续变化。其中许多任务可以自动化,从而确保轻松重新发现数据湖中已经存在的各种数据关系。”

Io-Tahoe 的最新版本在其对智能数据发现的理解上更进了一步,它带来了数据目录基于核心引擎。这允许数据所有者和数据管理者利用基于机器学习的智能目录来创建、维护、管理、搜索和丰富业务规则;定义关键数据元素的策略;并提供数据治理工作流功能。“这实际上是关于完整的业务规则管理和丰富,”Mahajan 说。“底层技术无关紧要;数据目录使组织能够真正成为数据驱动的。”

为什么聪明是聪明的

“我们将我们的平台称为智能发现解决方案,因为我们的理念是,只有数据才能告诉您最真实、最准确的故事,”而不是文档、图表或元数据,Mahajan 说。对公司数据的有效和全面访问——无论其保存在何处——不仅需要清楚地了解其元数据,还需要清楚地了解其内容。

为了获得这种访问权限,Io-Tahoe 的平台暴力破解实际数据以发现关系数据存储中的关系。发现中的数据流还可以对齐跨多个系统以不同名称复制的数据。同样,Io-Tahoe 不仅依赖元数据,还依靠暴力破解真实数据来理解一个系统中的“订单输入”、另一个系统中的“票证 ID”和第三个系统中的“订单 ID”如何反映相同的数据在多部分工作流程中。

对于与监管空间相关的数据问题——全球组织对 PII 和GDPR 是强制性的– Io-Tahoe 依靠其相同的基于算法的智能数据发现,定义某些策略以发现适当的敏感数据。该解决方案中内置了大量现成的策略,以便用户可以开始识别其应用程序、系统和完整数据环境中的敏感数据字段。如果愿意,用户可以设置自己的策略并上传自己的参考数据集,以增强特定于其组织的策略。

例如,Mahajan 讨论了 Io-Tahoe 正在为一个专注于跨关系和数据湖技术解决 GDPR 的客户发现敏感数据:

“这就是我们工作的规模,”他说。“这不仅仅是智能数据发现,而是跨越异构环境的大量数据集的发现,必须在短时间内完成。我们可以做到这一点,因为我们基于数据的智能采样来确定某个字段是否包含敏感数据。”

Mahajan 说,数据目录是一个主要的区别。它以 Io-Tahoe 的智能数据发现为基础。这意味着数据目录利用位于其智能数据发现功能之​​上的机器学习算法来自动增强有关数据的信息,而不管底层技术如何,并构建更准确和自动化的数据目录。这推动了数据治理能力的发展。

Mahajan 提到了最近的一份白皮书GDPR 和数据治理,以及如何确保组织的数据“不会变成负债”。要取得这样的成功,需要对所有数据资产进行更好的数据治理:

“组织需要了解并遵守各种数据治理法规,其中许多法规会对违规行为进行经济处罚。80 多个国家和独立领土,包括欧洲的几乎每个国家以及拉丁美洲和加勒比地区、亚洲和非洲的许多国家,现在都通过了全面的数据保护法。”

此类法规不会消失,而且可能只会在未来变得更加严格。它需要能够快速执行智能数据发现以及有效的数据治理,并且知道结果是可靠的,组织才能知道他们的合规性是准确的。

Mahajan 说,Io-Tahoe 的智能数据发现解决方案通过其创新的“算法方法”和“让组织中的每个人都可以使用数据”的机器学习技术,实现了所有这些。“我们帮助解开复杂的关系迷宫”,从而帮助组织将整个企业数据管理堆栈整合在一起,包括数据科学、数据分析、数据治理以及介于两者之间的所有内容。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:下一代 CDA LEVEL Discovery FACEBOOK Discover

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 17:59