为了应对困境企业或项目拥有复杂多样的数据,有许多不同的概念,数据湖策略已被添加到工具箱中。术语数据湖由 James Pentaho 在 2010 年创造,描述了一种适用于不同数据节点的工具。自 2010 年以来,供应商和企业以及联邦情报机构一直在使用数据湖来存储不适合典型数据仓库的数据,并增加对安全性的洞察力。
关于嗡嗡声数据湖表明许多企业需要他们在快速发展的市场以及不断变化的数据使用和需求中维持生计。许多公司再也不能对数据湖束手无策了。企业需要了解数据仓库和数据湖以及何时以及如何应用它们。
两种不同的模型:数据仓库与数据湖
Gartner 定义了一个数据仓库例如,“一种存储架构,旨在保存从事务系统、运营数据存储和外部源中提取的数据……适用于企业范围的数据分析和报告,以满足预定义的业务需求。” 将数据仓库想象成旅行路线。
一个计划去某个地方过暑假的家庭(比如阿拉斯加)会在旅行前联系住宿、餐馆和景点的地方。他们写下他们要去的地方以及整个旅行的时间。一个人在看房子并喂他们的狗和宠物,有紧急情况下的行程类似地,一个数据仓库为已知的聚合数据集提供明确定义的通信到定义明确的用户集。企业从数据仓库生成一组已知的分析和报告。
相比之下,一个数据湖“是原始数据源之外的各种数据资产的存储实例的集合。” 数据湖只向最熟练的分析师提供未经提炼的数据视图。” 考虑一个数据湖概念,例如一个想要灵活的去阿拉斯加的家庭。这家人从机场租了一辆车。在车上时,家庭成员一边开车一边决定去哪里,并根据看起来有趣的风景动态调整路线。
当人们需要一个过夜的地方时,他们会尝试使用 Hotwire 在现场找到一家酒店或在城里的许多地方停留,甚至考虑小木屋和蒙古包。根据可用的东西(旅馆是否有房间)和当地人可能有的建议(例如加油站服务员或坐在咖啡馆外的人),家庭决定住在哪里。
家庭保姆可能会或可能不会联系到家庭,但家庭可以更灵活地去任何地方并考虑各种可能性。一种数据湖操作类似,具有更广泛和分布式的上下文,其中一些问题仍然模棱两可,具有未定义的用户集和各种不同的数据表示。
数据仓库和数据湖之间的相似之处
虽然数据仓库和数据湖指的是不同的数据概念策略,但它们都有共同的特征。正如凯尔·奥尼尔(Kelle O'Neal),创始人兼首席执行官第一旧金山合作伙伴,在 DATAVERSITY® 中提及数据湖与数据仓库网络研讨会,实施任一数据架构并不意味着数据问题消失。数据仓库与数据湖之间的相似之处有很多:
与数据存储架构相关
需要一个商业目的才能存在和坚持
推动企业利益
需要围绕数据进行一些治理和监督
需要一些结构来理解数据的含义
对比数据仓库和数据湖
数据仓库和数据湖相得益彰数据相关策略. 正如数据仓库与数据湖表之间的主要区别所表明的那样,在数据仓库方法不足的地方,数据湖填补了空白:
照片来源:第一旧金山合作伙伴
数据仓库依赖于这样一种假设,即在构建时关于模式的可用知识将足以解决业务问题。商业领袖和开发人员设计关系数据库。根据允许结构化报告的方案,信息写入数据仓库。
如果出现新的业务需求,从根本上改变原始数据结构,那么改造数据仓库可能会非常耗时,从 6 个月到 9 个月不等。更糟糕的是,缺少关键数据属性可能会导致早期数据仓库死亡,内部和外部客户发现自己更容易在数据仓库中收集和存储数据。在这一点上,业务领导者可能希望有一个更敏捷的结构。
数据湖策略允许用户轻松访问原始数据,一次考虑多个数据属性,并灵活地提出模棱两可的业务驱动问题。通常,公司已实施阿帕奇Hadoop、NoSQL 或类似技术在读取架构、数据湖上建立模式。但是数据湖最终可能会变成数据沼泽,在那里寻找商业价值就像寻找圣杯一样。数据湖需要具有相当专业知识的数据科学家或分析师来寻找原石(原始数据)中的钻石(有用信息)。
这可能需要企业花费大量时间和金钱来使数据湖变得有价值,而不仅仅是一堆数据。然后,企业开始同意 Gartner 研究总监 Nick Heudecker 的观点,即为了满足更广泛受众的需求,需要具有治理、语义一致性和访问控制的精选存储库——这些元素已经在数据仓库中找到。
数据仓库与数据湖用例
业务领导者何时决定采用数据仓库或数据湖方法?这需要记录业务需求、分析特征、制作最适合架构的版本以及收集数据分组以最好地提供数据洞察力。数据必须以目的为导向. 为了给这些想法提供一个起点,请找到如下所述的案例研究:
数据仓库:对于竞争激烈的保险行业中的组织而言,代理人和保单持有人的保留变得很重要。尤其是在保险经纪人在成熟但不断发展的市场中独立运营的情况下。正如 John Ladley 所描述的,一家保险公司最近决定通过数据仓库来满足其数据需求。内部和外部数据源通过 ETL(提取、转换和加载)打包到数据仓库。客户可以轻松地转向其他业务,但由于服务而得以保留,部分原因是销售和营销、承保和索赔管理的一致和简单的报告。
数据湖:由 Shannon Fuller 指导的数据治理组织需要一个数据系统来“支持医疗保健服务交付的创新和洞察力”。面临从不同的信息源创建基于价值的模型的挑战,为从临床到计费服务的各种用户,在一个地方快速访问。Shannon 总结了一个数据湖概念,吹捧具有一个通用存储库的数据架构,可以实现更快的交付。使用 Hadoop 实施,来自各种来源的数据在只读操作、策划、分析沙箱和持久数据层中过滤,满足公司的需求。
结论
如前所述,决定实施数据仓库与数据湖架构提供了不同的数据分析和使用方法. 使用哪一个以及何时使用取决于提前计划。如果将商业目的与旅行计划进行比较,那么两种策略的组合可能效果最好。
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







