文章目录
- 为什么关注“数据空间”?
- 华为的总体思路(研究方向汇总)
- 关键能力分解与华为的技术实现(工程视角)
- 代表性实践与场景(行业落地)
- 华为经验的工程性总结(对工程团队的建议)
- 把“数据空间”作为工程化产品来做
- 《华为数据之道》书籍推荐
- 内容简介
- 作者简介
1. 为什么关注“数据空间”?
“数据空间”在工程实践中,通常被视为:跨组织/跨领域的数据治理、共享、目录化与计算能力的集合——它不仅涵盖了物理层面的存储与计算资源,还包括元数据、数据资产目录、权限与合规模型,以及能够将数据转化为线上可复用能力(API、服务、知识图谱、模型输入输出)的高级功能。要将数据转变为企业和产业级别的可复用资产,既要具备
稳固的基础
,也要有
严谨的管理和灵活的数据服务化流程
。
2. 华为的总体思路(研究方向汇总)
华为在近年来围绕“数据空间 / 数据基础设施”构建了较为系统的产品线与理论成果,主要集中在以下领域:
- AI-Ready 数据存储与加速 :针对大规模训练和高并发推理场景对存储系统的延迟、带宽与元数据管理需求(如 OceanStor、All-Flash、Scale-Out 解决方案)。这些成果体现在白皮书和产品化的存储系统发展路线中。([Huawei Enterprise][1])
- 分布式数据库与数据服务(GaussDB) :结合关系型/混合负载和分布式扩展能力,提升 HTAP/OLTP/OLAP 混合场景下的数据处理能力和可用性。GaussDB 强调智能化运维与索引/分布式优化建议,以减少运维成本。([华为云][2])
- 数据织物 / 数据平台(DataArts / DME / eDataMate) :围绕数据集成、元数据管理、血缘、质量、知识生成(如将数据转化为知识/向量/知识图谱的工具链 eDataMate)构建了一整套能力,使数据在企业内部“可发现、可治理、可被模型/应用调用”。([华为云支持中心][3])
- 数据安全与合规工程化(云与本地) :强调数据全生命周期的安全控制(加密、密钥管理、访问控制、跨境与合规策略),并发布了面向企业场景的白皮书与实践框架。([res-static.hc-cdn.cn][4])
- 下一代数据中心与边云协同 :将数据中心、模块化边缘机房等作为数据空间的物理支撑,强调面向 AI 的数据流通、延迟与能效优化。华为在 Data Center 2030、Next-Gen Data Center 的报告中提出了相应的参考架构与能力指标。([Huawei Enterprise][5])
3. 关键能力分解与华为的技术实现(工程视角)
以下是“数据空间”的关键能力的详细解析,并指出了华为在每个领域的代表性研究或产品路径,以及工程实现的关键点与限制。
- 可用且可扩展的存储(AI-Ready)
:华为将“存储”从传统的 IOPS/容量问题,扩展到“AI 训练数据的可用性、数据加速引擎与智能分层”。实践要点:
- 运用全闪/分层存储与数据感知的压缩与去重策略,减轻训练数据的 I/O 瓶颈。([Huawei Enterprise][1])
- 对大型数据集提供全球命名空间或对象网关,减少数据复制成本(智能分发/缓存策略)。
- 分布式数据库作“交易+分析”混合引擎(GaussDB)
:华为通过 GaussDB 提供分布式关系型能力,强调高可用性、可扩展性和智能化运维:
- 自动索引建议、分布列建议与根因分析,减轻 DBA 的工作负担。([华为云][2])
- HTAP/混合负载支持,适用于在线业务同时需要分析能力的场景。
- 数据织物与数据平台(DataArts / DME / eDataMate)
:华为的数据平台体系旨在覆盖从数据接入、元数据、血缘、质量到知识生成的整个过程:
- DataArts 提供可视化的元数据管理、血缘追踪、权限控制模块;DME(Data Management Engine)用于存储与数据管理编排。([华为云支持中心][3])
- eDataMate 等知识生成工具链将结构化/非结构化数据转换为向量/知识图谱,支持下游大型模型或检索式生成。
- 数据安全与合规(工程化)
:华为视数据安全为构建数据空间的基础,推出了从密钥管理到跨境合规的白皮书与工程实践:
- 全生命周期的数据保护框架:采集、传输、存储、使用、流通、销毁的控制。([res-static.hc-cdn.cn][4])
工程启示:治理策略应融入数据路径(数据目录、访问 API、审计链路),否则合规仅限于文档而非实际机制。
边缘/模块化数据中心与效能优化
华为在数据中心产品线(模块化机房、UPS、数字能源)与 Data Center 2030 报告中强调数据中心对未来发展空间的承载作用,特别是在边缘环境下的数据本地处理与低延迟保证。([Huawei Enterprise][5])
4. 代表性实践与场景(行业应用)
AI训练平台与数据湖整合
:在多个行业(金融、电信、制造)中,华为提出的“AI 数据湖 + 存储 + DME”组合,旨在将标注、预处理、训练数据转化为资产,从而提高模型迭代效率。华为的案例与产品文档详细介绍了“AI-ready 存储 + 全程知识生成链”。([FutureCFO][6])
面向企业的数据治理工程
:基于 DataArts 的元数据与血缘管理,帮助企业实现数据的可搜索性、质量监督与权限控制,符合内部外部的合规需求。([华为云支持中心][3])
混合云数据库与迁移实践
:通过 GaussDB 与云端数据服务,支持企业将传统的单体数据库迁移至分布式/云原生架构,确保可用性和扩展性。([华为云][2])
5. 华为经验的工程性总结(对工程团队的建议)
基于华为的研究路径与实践案例,结合工程实施的一般教训,提出若干可操作建议:
先治理后共享(分阶段)
:从最核心的 1-2 个数据域开始(如用户、订单),建立元数据与血缘、质量规则,形成可重复使用的模板,再横向扩展到其他域。
将存储与计算设计为“自适应”的数据路径
:针对训练/推理/分析分别设计热/冷/归档分层,并实施数据预取与缓存策略,避免“全部放入一个湖中”引起的性能下降。华为在 OceanStor 与 A系列存储中强调了对 AI 环境的优化。([Huawei Enterprise][1])
自动化的运维与智能建议要落实
:利用数据库/平台的智能诊断、索引建议等功能(GaussDB 的实例显示能大幅减少运维成本),同时保持人工可控制的回退机制。([华为云][2])
可审计的安全与合规机制必须从设计初期加入
:将加密、密钥管理、权限审计作为数据 API 层的基本功能,确保每次数据访问都有审计记录(华为数据安全白皮书提供了框架性指导)。([res-static.hc-cdn.cn][4])
边缘与中心协作:分层架构更为实际
:数据不必全部集中在中心,能够就近处理则就近处理(边缘/近边缘进行预处理,中心进行训练/长期存储),既能降低网络成本也能减少延迟。华为在其 Data Center 与模块化边缘机房方案中提出了相关理念。([Huawei Enterprise][5])
跨组织互信与数据流通机制
:产业级数据空间(如多个企业共享的行业数据空间)在信任、支付/计费与隐私计算层面上还需要更多的标准与工程化工具支持。
知识生成与数据质量的自动化
:如何将原始数据高效转换成大模型可利用的向量/知识图谱,仍然是工程难题(需要更先进的标注自动化、数据描述与语义对齐工具)。华为的 eDataMate/知识链路是方向性的实践,但通用性/可解释性还需进一步提升。([FutureCFO][6])
长期运维成本与能效限制
:在大规模数据环境下,存储/压缩/冷归档策略与能效优化是持续的工程挑战。华为关于 Data Storage 2030 的研究/白皮书提出了长远的发展方向。([huawei][7])
6. 将“数据空间”作为工程化产品来开发
华为在数据空间相关的研究与产品链(存储、数据库、数据平台、治理、安全、机房/边缘)上已形成较为完善的技术与产品体系,并通过白皮书、产品化解决方案将理论与工程实践相结合(可见在存储、GaussDB、DataArts、DME 以及数据安全白皮书上的系统化输出)。对企业而言,关键不在于完全复制某家供应商的技术,而在于学会
将数据能力拆解为可交付的工程模块
(存储/数据库/元数据/质量/知识生成/安全),按价值优先级顺序逐步交付并形成闭环。
7.《华为数据之道》书籍推荐
当当:
https://product.dangdang.com/29972028.html
京东:
https://item.jd.com/14583475.html
适读人群 :适合数据及其相关领域的所有从业人员阅读
(1)华为公司经验总结:华为公司从事数据空间相关研究和实践近8年,本书系统整理和总结华为在数据空间领域的研究成果与实践经验。
(2)融合国内外经验:华为积极参与国际数据空间协会等国际组织的生态建设与标准制定,并与欧洲的相关科研机构合作,汇集全球数据空间领域的先进方法与经验。
(3)华为CIO陶景文作序:华为公司董事会成员、质量与流程IT总裁、CIO陶景文对本书给予高度评价并作序推荐。
(4)内容系统、实战、前瞻:全书提供一套完整的数据空间知识体系、一套可实施的企业实践方法、一套面向未来的前瞻性思考。

7.1 内容简介
这是一本系统地整理和总结华为在数据空间领域研究成果与实践经验的书籍,详尽介绍了如何建立可靠、可控、可验证的数据流通体系,旨在为解决跨主体、跨边界的數據共享难题提供全面的解决方案。
华为近8年来专注于数据空间理论与架构的研究,积极参与国际数据空间协会(IDSA)和Gaia-X等国际组织的生态建设与标准制定,并与欧洲相关科研机构在研究项目上进行了广泛的合作。华为成功开发了自己的数据空间服务产品EDS(交换数据空间),并在鲲鹏昇腾生态系统中率先得到了验证,目前已经在华为内部的四大类20多个场景和众多外部客户中广泛使用。基于此,华为将其在数据空间理论框架、工程实践、实施原则等方面的知识、经验和教训汇编成此书。
本书将向您展示破解数据流通难题的方法,从理论到实践、从架构到实施,全面解析数据空间这一创新方案。阅读本书,您将获得:
- 一套完整的数据空间知识体系:全书共11章,系统涵盖了数据流通的时代背景与全球性难题、欧洲数据空间的新实践、数据空间的四大设计原则和五层三维参考架构、数据连接器的六大关键能力,以及如何构建“可靠、可控、可验证”的数据流通保障机制。
- 一套可实施的企业实践方法:详细解释了企业在部署和运营数据空间时需解决的三个核心问题(谁来使用、谁来管理、如何使用),并提供了四大类企业应用场景的操作指南,涉及企业内部、集团内部、产业链上下游以及与外部组织之间的数据交换模式。
- 一套面向未来的前瞻性思考:深入讨论了在大规模AI模型时代,数据空间如何应对数据流通的新挑战,以及如何支持AI场景下的数据可控利用,展望了数据空间作为未来国家数据要素流通基础设施的美好愿景。
本书将为您的数据战略规划和数字化转型实践提供极其宝贵的参考与指导,帮助您在数据浪潮中抢占先机。

7.2 作者简介
马运(MA YUN),华为公司数据总架构师、数据首席专家、信息架构专家委员会主任、数据管理教研室主任。
2015年至2022年期间,在华为公司担任数据管理部部长、质量与流程IT首席数据官,负责公司信息架构、数据基础和数据治理体系建设,主持公司数据资产管理、元数据驱动产品信息管理、主权可控数据交换等改革项目,深入参与数字化转型工作。畅销书《华为数据之道》的第一作者,《华为数字化转型之道》的主要作者。
曾长期在瑞典爱立信总部工作,担任产品线业务总监、集团信息管理部总监。曾任北京交通大学副教授、统计教研室主任、经济系主任,在瑞典国家公路与运输研究院任客座研究员。
当前研究领域:企业AI数据管理、AI+区块链、数据要素价值评估。


雷达卡


京公网安备 11010802022788号







