楼主: 时光永痕
1295 0

[数据挖掘新闻] 数据仓库、数据湖和分析的未来 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

4%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2022-5-26 10:59:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据湖的创建是为了满足数据仓库在很​​大程度上未满足的大数据分析需求。数据湖技术的钟摆摆动提供了一些非凡的新功能,但如果摆动在另一个方向上走得太远,可能会出现问题。该公司首席执行官 Anthony Algmin 表示,我们远未处于这一进化过程的终点,而是处于其中。Algmin 数据领导力,在DATAVERSITY® 的题为“数据仓库与数据湖技术”的演讲中企业在线分析会议。

这数据仓库以前是业务洞察力的标准来源,现在面临来自数据湖的激烈竞争。提供临时分析、非结构化数据存储和无与伦比的可扩展性,数据湖能够处理当今快速增长的数据需求,但它们也有其局限性。Algmin 比较了数据仓库和数据湖技术以及它们现在和未来各自的作用


大数据分析的需求
从历史上看,随着企业开始越来越依赖计算技术从业务运营的角度来做事,这些系统和其中的数据成为企业生产力的孤岛。出现了将数据与其他功能相结合的需求,并创建了 CRM、HR 和 ERP 系统。这些系统与以功能为导向的特定运营系统一起工作,报告各自的领域。Algmin 说:“然而,当涉及到分析时——甚至跨 ERP 系统的不同领域——[分析] 被作为次要想法添加,”没有集成外部系统。

组织开始看到分析的价值,并希望报告包含整个系统孤岛中的数据,但现有的应用程序都无法超越他们自己的数据集。这导致了本土解决方案,例如将多个数据源复制到不同选项卡的大型电子表格。

Algmin 表示,对于许多组织而言,将不同源系统“混合在一起”以完成所需分析的点对点解决方案今天仍在使用。他说,这个过程本身并没有什么问题,但它的扩展性不是很好。对规模的需求催生了数据仓库的想法,它采用自上而下的数据建模方法来创建跨数据源的系统一致性。

数据仓库
传统的数据仓库依赖于关系数据库结构,一切都有它的位置。对维度建模的依赖允许直观的数据消耗和一致的性能。“即使到今天,如果您正在针对特定流程进行运营报告,您的操作系统可能非常擅长让您了解自身。”

弱点包括需要紧密耦合的关系、复杂的处理逻辑以及相对的更改难度。作为ETL 流程(提取、转换和加载)复杂性增加,数据源开始演变,变得难以更改、难以监控和难以排除故障。“你有两个数字应该相同,但它们不同。为什么它们不同?弄清楚这可能是一次冒险,”他说。

数据湖
随着卷从 TB 级转移到 PB 级和 EB 级,传统的数据仓库不堪重负。进入数据湖:一个存储库,它以原始格式保存大量原始数据,直到需要它为止。数据湖技术可以扩展到海量数据,并且很容易将数据集与以相对原始形式存储的数据相结合。数据共享过程允许模式出现,为数据仓库、数据集市和广泛的分析功能提供了一个起点。尽管重点已经从数据仓库转移到数据湖,“数据仓库可能比以往任何时候都更有用,”Algmin 说,并且创建新数据仓库的能力是无与伦比的。

数据湖的弱点
Algmin 说,如果增长不受控制,数据湖就会出现问题,需要数据仓库不需要的控制。强大的元数据管理至关重要,否则数据使用将变得困难和受到侵蚀。他说,它们在高度管理的环境中也不能很好地工作,因为数据湖需要一定程度的个人自由才能值得付出努力将它们组合在一起。“主要挑战不是创建数据湖,而是利用它提供的机会。”

最有效的数据湖可以让任何数据消费者在没有帮助的情况下轻松理解和准确找到他们需要的东西。“你不希望仅仅为了一个人能够使用新数据集而通过 IT 票务系统,”他说。

成功取决于基础
元数据管理是我们讲述数据故事的方式,Algmin 说,提供有关数据来源、有用性、质量和意义的背景和答案。即使数据量相对较少,大多数组织仍在为元数据管理而苦苦挣扎。他说,如果没有强大的数据治理和元数据管理,数据湖注定会失败,而那些努力实现其数据湖潜力的组织甚至考虑放弃它们以返回仓储。

数据湖的大规模“充当了这些不良做法的放大器,这使混乱更加糟糕,一切都变得更难,而不是更容易。” 无基础数据管理组件,“我们不会在数据湖上取得成功,”他说。

未来
数据湖不是作为单一事实来源,而是可以作为具有多个视角的所有事实的集合,并有可能演变为开放访问数据库。由于可扩展性和可扩展性优先于结构和控制,数据湖反映了云的核心价值和能力。

随着数据消费者对数据的提炼和分析,他们发现的发现和见解可以被放回数据湖中,以便其他数据消费者可以使用,从而创建“一个前所未有的数据改进引擎和数据分析能力。 ” 他说,使数据湖更具相关性的关键过程是完成反馈循环,使用数据、理解数据、分析数据、改进数据,然后返回数据,以便其他用户可以更进一步。企业可以演变成使用 Algmin 所谓的“更智能的数据湖架构”。

数据架构他说,以前仅限于数据仓库,但现在可以交换组件,因为云为临时数据仓库提供了选项。借助可以直接查询数据湖数据的技术,不需要数据库或可视化工具,因此,他看到了未来的巨大潜力。“我们不需要对我们所做的每一件事都采用十度结构,但我们确实需要对这段数据的故事有一个基本的了解。”

与其专注于数据湖或数据仓库技术,“它是关于如何将数据转化为推动有意义的业务价值的洞察力。” Algmin 告诫不要假设这个快速变化的时期已经结束。相反,他预测随着数据量的增加,复杂性会更高,变化也会更快。“所以,去产生影响,找到一种利用数据让你的业务变得更好的方法,这将引导你走上正确的整体道路。”

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据仓库 Anthony 数据分析能力 大数据分析 结构化数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 06:56