知识差异:因为集中式数据团队无法理解数据以及拥有整个数据集专业部分的各个业务团队。
刚性基础设施:因为集中式数据架构永远不会足够灵活,无法满足组织内不同部门的需求。
延迟实现价值:因为集中来自多个来源的数据需要大量时间,这会阻止数据消费者按需访问数据。
为了克服这些问题,组织正在密切关注一种新的分散式数据基础架构方法,称为“数据网格”。根据德勤的说法,“数据网格概念是一种民主化的数据管理方法,不同的业务领域在中央和自助数据基础设施的支持下操作自己的数据。基础设施包括捆绑的数据管道引擎、存储和计算功能。数据网格不是将企业数据视为一个巨大的数据存储库,而是将其视为一组数据产品存储库。因此,业务领域(例如“金融”)将数据作为产品提供;可随时用于分析目的、可发现且可靠。这样,数据产品负责人就是拥有深厚领域知识的实际业务领域代表。”
在数据网格配置中,组织内的不同部门或组将拥有由中央自助数据平台启用并由一组总体标准管理以确保互操作性的单独数据域。每个数据域都将以专门设计的方式交付其数据产品,以使其目标受众易于使用并符合组织的全球标准。所有权是分散的,而供应和治理仍然部分集中。数据网格架构有望克服完全集中式基础设施的局限性。然而,
启用无复制数据访问
虽然有各种各样的解决方案可以提供帮助,但数据虚拟化正在成为一种数据集成技术,它是实现数据网格的关键组件。与提取、转换和加载 (ETL) 流程以及其他面向批处理的数据集成方法不同,数据虚拟化可以访问数据,而无需首先将数据复制到集中存储库。通过这种方式,数据虚拟化可以被认为是一种固有的“分散”数据集成策略,因为它在组织的各种数据源之上建立了一个企业范围的层。为了跨源查询,数据消费者只需查询数据虚拟化层,该层反过来检索必要的数据,将消费者从访问的复杂性中抽象出来。DV 层不包含实际数据;然而,
通过提供存储元数据的单一位置,数据虚拟化使组织能够从单一控制点在整个组织中实施基于角色的自动安全和数据治理协议。例如,组织可以自动屏蔽工资数据,除非用户具有查看此信息所需的凭据。数据虚拟化层提供了数据网格架构中所需的大部分必要的自助数据平台功能。
在 DV 层之上,组织可以实现无数语义层,由不同的部门构成,并作为半自治的数据域运行。这些中的每一个都可以灵活调整或删除,而不会更改或影响基础数据。因此,组织可以轻松建立可以跨不同域重用的标准数据定义,并确保不同数据产品之间的语义互操作性,从而促进联合治理。
创建数据产品
随着组织寻求数据网格来开发数据产品,他们正在利用 DV 层创建虚拟模型,而无需利益相关者了解提供数据的来源的复杂性。通过这种方式,他们可以通过一系列灵活的方法(例如 SQL、REST、OData、GraphQL 或 MDX)将这些虚拟模型作为数据产品进行访问,而无需编写代码。
此外,数据产品还支持数据沿袭跟踪、自我记录、变更影响分析、身份管理和单点登录 (SS0) 等功能。通过集中存储元数据,数据虚拟化层为功能齐全、全面的数据产品目录提供了所有必要的成分,这些目录清楚地表达了组织的数据资产,按域组织。
建立数据域自治
因为数据虚拟化使组织能够在源数据之上构建视图和语义模型而不影响底层数据,它为数据域的自治提供了现成的基础。该架构使数据域利益相关者能够选择为其产品提供数据的数据源,并根据需要更改组合以满足他们的需求。运营自己的数据集市和青睐的 SaaS 应用程序的业务部门可以轻松地在数据网格配置中重新利用信息,因为数据域可以独立扩展。
需要注意的是,数据虚拟化并不能取代像数据仓库和数据湖这样的单一存储库。相反,数据虚拟化将此类存储库视为任何其他来源。在数据网格配置的情况下,它们成为网格中的节点。这意味着与现有数据仓库或数据湖有密切联系的数据域可以继续为某些数据产品走这条路,例如那些需要机器学习的产品。在这种情况下,数据产品将继续通过虚拟层访问,并由监督数据网格其余部分的相同协议管理。
数据网格是一种很有前途的新架构,可以避免高度集中的数据基础设施的许多缺陷。但是组织需要正确的技术支持,以便以直接的方式有效地利用数据网格,而无需更换旧硬件。
相关帖子DA内容精选
|