数据治理成熟度模型
据治理在“大数据”成为热词后,更加被业界关注。大数据带来的一个显著变化是,大量数据来自于数据中心之外,包括笔记本电脑、平板电脑、智能手机以及传感器、社交网站等。数据量激增,数据类型也变得多样。数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察?大数据时代,企业更加需要数据治理。
“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”IBM全球企业咨询服务部业务分析与优化团队副合伙人谢国忠说,数据治理(Data Governance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。
IBM提出的数据治理成熟度模型,以及国内企业数据治理成熟度情况
国内企业数据治理成熟度不高
“在过去几年中,数据治理的目标也在发生转变。”曾经帮助金融、航空、海关、电信、电网等行业客户做过数据治理项目的谢国忠表示,“除满足监管和风险管理要求外,现在很多企业在说怎么通过数据治理来创造业务价值。如信息披露、行业领先以及精细化管理的需求。”
“目前国内大部分企业在数据治理方面还处于基本管理阶段。”谢国忠评价说,“有些公司说做了很多数据质量检查,做了数据归档、数据安全,但他们的问题是没有一个完整的体系。其次,怎么把这些领域串起来,他们没有方法论。第三,他们在观念上还达不到把数据当做核心资产来运作。”因此,谢国忠认为国内企业首先需要一套完整的数据治理体系。
他认为国内企业数据治理方面存在误区:觉得数据治理是很短期的行为,认为数据治理只是IT部门的责任,只把数据治理当成软件。实际上,数据治理不光是软件,还要有相应的流程、方法。
谈到数据治理的实践,IBM自身就是数据治理的典型代表。1992年之前,IBM在数据治理方面存在很多问题,没有明确的可依赖的数据源,没有明确的数据所有人,数据质量低下。1995年,IBM在ERP里面做了业务数据标准,将所有的业务定了15大类业务标准、79个分类子业务标准,这样全公司看到的是一个统一的业务定义。2004年,IBM成立了数据责任人论坛,2005年成立了数据治理委员会,之后又成立数据审核委员会。1992年,IBM全球有128个CIO、155个数据中心、80个Web拓展中心、31个不同的网络、16000个应用。通过数据治理,IBM简化了基础架构,并降低了管理的复杂度。2007年,IBM全球只有一位CIO,主数据中心变成了6个,Web拓展中心变成全球统一的网络,16000多个应用变成4000个左右。
在此基础上,IBM在2004年联合业界多家公司和学术研究机构,成立了数据治理论坛,并在此次论坛上,制定包括四大领域11个要素的数据治理框架和方法,来指导数据治理工作的开展。框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。
银行数据治理成功案例
在数据治理方面,由于政策方面的驱动力以及银行自身业务发展的需求使银行数据治理需求旺盛。中国银行(601988,股吧)业信息科技“十二五”规划中包括数据治理与数据标准专题,其中指出“十二五”期间,数据治理需要重点推进的核心领域包括:数据标准、数据质量、数据安全、数据架构,以及为了做好这些工作所必需的保障机制,包括政策、组织、流程、技术等方面。
IBM GBS部门帮助国内外银行做了多个数据治理的咨询项目,包括中国资产规模最大的商业银行。
“这家银行与同行业相比在技术方面是最先进的,已经做了数据质量、元数据等,但没有完整、统一的数据治理方法和配套的制度、流程;另一个问题是数据治理体系和架构还不完善。”谢国忠向记者介绍了这家银行在数据治理方面面临的挑战。
根据IBM数据治理框架和方法,GBS从四大领域11个要素对该行数据治理的现况进行评估,帮助该银行找到差距,并在此基础上分析问题,提出解决问题的建议。这一项目从2008年开始,2010年及2011年该行又相继启动了一系列相关的数据治理项目,包括全行数据标准化项目、数据架构优化项目、全行数据质量管理项目等。目前,该银行在数据治理方面在全国也走在前列。
再看某全球领先银行的数据治理案例。美联储认为该银行没有对信息的整合和质量进行足够的控制以确保合规的要求。而通过一到两年的数据治理,该银行通过了美联储的审计。该银行的高级副总裁Andrew Dunn认为,该银行数据治理取得成功的关键因素是,选择了一个有相关经验、流程和工具的合作伙伴能够加速数据治理在整个企业范围内的有效部署。
主数据管理需求突出
数据治理涉及11个要素,主数据管理就是其中非常重要的一环。Informatica公司高级副总裁兼首席信息官Tony Young就说:“加强主数据管理是企业获得一个完整、可信的数据视图的必经途径。”
主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单等。主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。
Tony Young向记者表示:“MDM最核心的任务是导出"黄金数据"。所谓黄金数据就是企业的关键业务数据,也是绝对真实的数据。此外,MDM还要反映主数据之间的关联性,比如客户与产品之间的关系、客户与客户之间的关系等。在数据仓库里,你很难找到这种关联性,而MDM能够轻易做到这些。”MDM和数据仓库之间也有区别,比如它们处理的数据类型不同,MDM是偏交易型的系统,而数据仓库属于分析型的系统。MDM和数据仓库两者可以互相促进,互为补充。Informatica MDM 的灵活数据模型可让IT团队在任何数据域中实施MDM,并可在同一数据模型中添加其他域及定义不同数据域之间的关系。Informatica MDM 可在企业内部或云中实施,也可作为两者的混合体加以实施。此外,它还可以作为多个MDM实例之间的全局性枢纽,部署于联合MDM体系架构内。
金融行业仍然是MDM需求最旺盛的行业,MDM资深专家、Information Difference公司总裁Andy Hayler表示:“一般来说,企业越大,遇到的数据管理方面问题就越多。大公司更容易采用相关的数据分析工具来解决其面临的数据问题。”但这并不是说MDM只适用于金融行业,比如Informatica公司的MDM产品已经在24个行业中得到了应用,包括医疗、石油、公共事业等行业。