就像我们拥有化学工程,电气工程和机械工程一样,是时候对数据工程领域进行正式化了。 这是一个由两部分组成的关于趋势和需求的特殊系列,导致数据工程领域的形式化。
“数据是新的石油......在几乎相同的方式,石油燃料在20经济增长个世纪,数据将推动21个经济增长圣世纪。”
为了进一步提高数据作为下一世纪经济燃料的可信度,《经济学家》关于数据经济的特别报告提出“数据更像石油还是阳光?”
如报告所述:
最初,数据被比作石油,这表明数据是未来的燃料。最近,将其与阳光进行了比较,因为它们很快就会像太阳光线一样,无处不在,成为一切的基础。
像石油一样,必须精炼数据才能有用。在大多数情况下,[数据]需要“清理”和“标记”,这意味着去除了不准确性,并进行了标记以标识在视频中可以看到的内容。
在数据为AI服务提供动力之前,需要通过算法馈送数据,以教他们识别人脸,驾驶自动驾驶汽车并预测何时喷气发动机需要检查。而且通常需要组合不同的数据集才能出现统计模式。以喷气发动机为例,混合使用情况和天气数据有助于预测磨损。
然而,正如会议组织者和智囊团世界经济论坛(World Economic Forum)在2011年所预测的那样,数据未能成为“新资产类别”。大多数数据从未动过手,也没有试图使它们更具可交易性。
不过,很难在数据上赋予确定的价值。如果数据将成为21 世纪经济增长的动力,我们是否不需要找到一种方法来准确确定哪些数据值得? 我们在旧金山大学的研究论文“应用经济概念来确定数据的财务价值”中解决了这个问题, 该研究论文强调了以下挑战:
“传统资产负债表框架中的数据评估存在严重限制。公司确定一种会计数据的方法很重要。组织还需要一个框架来应对“ Rubik's Cube”知识资本[引用2]方面的挑战,该挑战涉及如何识别,调整组织数据和分析投资并对其进行优先排序。
为了应对这一挑战,本研究论文将提出以下内容:
一个有助于捕获,完善和共享组织的数据和分析资产的框架,以及
帮助组织确定在何处优先投资其宝贵数据和分析资源的过程。
我们希望这份研究论文能够为组织提供新的方法,以便他们从经济和金融的角度重新考虑他们如何重视数据和分析。本研究论文涵盖的概念将提供一种通用的词汇和方法,使企业领导者可以与IT和数据科学组织合作,以确定组织的投资并确定其优先级。”
规范化数据工程领域
最近的麻省理工学院“人工智能”播客(感谢马特的指点),迈克尔·乔丹(不是NBA超级巨星迈克尔·乔丹),他是机器学习和人工智能领域最有影响力的人之一,这有力地证明了这一点。类似于化学工程,电气工程和土木工程领域的“数据工程领域”的需求,它将硬性工程概念和原理与理论和实践方面相结合。
例如,虽然电气工程不仅涉及电力技术,但该学科还包括法律(迈克尔·法拉第的感应定律),标准,系统设计,体系结构,培训,认证,电气和电子理论,数学和材料。这使工程师可以设计执行特定功能并满足安全性,可靠性和能效要求的电气系统,并在实际构建系统之前预测这些系统的性能。
土木工程和化学工程是建立在物理和化学基础上的,而这一新的[数据工程领域]将建立在上世纪实质的思想之上,例如信息,算法,数据,不确定性,计算,推理和优化。此外,由于新学科的大部分重点将集中在人类数据和人类数据上,因此其发展将需要社会科学和人文学科的观点[1]。
今天,大多数人都将数据工程(包括我)视为与传统数据准备和数据集成相关的功能,包括数据清除,数据标准化和标准化,数据质量,数据丰富,元数据管理和数据治理。 但是,数据工程的定义不足以推导和推动社会,商业和运营价值的新来源。
正如迈克尔·乔丹(Michael I.Jordan)强调的那样:
“ [人工智能]是否会有突破?是的,谷歌,亚马逊和优步是人工智能突破的例子,它们以全新的方式基于数据流为人类带来价值。但是,这些[AI]的很多东西都被打碎了,因为没有一个工程领域能够在行星级数据的背景下获取经济价值,并担心诸如隐私之类的所有外部因素。
我们没有那个领域,所以我们认为这些事情做得不好。 但是我认为这是新兴的。 回顾一百年来,这将被视为其时代的突破,就像电气工程和化学工程是突破一样。”
哇! 我很高兴听到像迈克尔·乔丹(Michael I. Jordan)这样的行业名人,阐明如何确定数据背景下的经济价值对于推动数据和分析突破是必要的,因为这是我多年来一直关注的领域。
因此,我将提出科学的“数据工程领域”。
数据工程领域汇集了数据管理(数据清洗,质量,集成,扩充,治理)和数据科学(机器学习,深度学习,AI)功能,并包括法律(“数据经济价值的三个定理” ),标准,系统设计,架构,培训和认证,以及软件工程,数学,统计学,经济学,伦理学,安全性和隐私权等学科,以设计执行特定功能并满足可靠性,准确性和道德要求的数据系统对组织如何确定,传播和管理数据和分析的经济价值的理解。
哎呀,也许我可以被认为是“ 数据工程之父 ”(尽管我仍然喜欢“ 大数据院长 ”这个绰号)。
有两个基于经济的重要原则将支撑数据工程领域:
原则1:精选数据永不耗尽,永不磨损,并且可以以接近零的边际成本使用无限数量的用例。
原则2:数字资产的使用价值越高,而不是贬值?也就是说,使用这些数字资产越多,它们就变得越准确,越可靠,越高效和安全。
原则1: 可以零边际成本重复使用经过整理的数据
数据工程的第一个原则包含数据作为资产的独特经济方面。 数据是新石油的类比是一个很好的起点,但是我们需要进一步推论。 原油原料经过提炼,调合和工程处理,将原油转化为更有价值的资产,例如汽油,取暖油或柴油。 必须先执行此关键过程,然后下游成分(例如您和我)才能真正从石油(汽油,取暖油或柴油)中获取价值。 石油本身几乎没有消费者或工业价值。 只有通过完善的过程,我们才能获得有价值的资产。
数据经历了与石油相同的经济转型。 原始数据需要经过完善的过程(清理,标准化,归一化,对齐,变换,工程,丰富等),以创建“精选”数据,从而显着提高数据的经济价值和适用性(见图1)。 )。
整理好数据后,我们需要一种确定或归因于数据的经济价值的方法,该方法可以:
从一项关键的业务计划开始,以便您可以为“审慎的价值”建立财务基础,以该财务基础为基础来确定支持数据源的经济价值。
包含一种方法,用于确定支持目标业务计划所需的决策,并将价值的粗略顺序与提高这些决策的有效性或结果相关联。
与业务用户合作,根据他们试图优化的决策对每个数据源的感知价值进行排名。
由此产生的估值公式使您能够将财务价值归因于数据源,并且此财务价值归因可以帮助组织确定其数据投资策略的优先级。
原则2: 建立有价值的资产,而不是贬值的资产
支撑数据工程领域的第二个原则是,我们可以利用机器学习,深度学习,强化学习和AI来创建持续学习的自主分析资产 ,从而通过以下方式获得更可靠,更有效,更安全,更智能,因此更有价值。使用...只需最少的人工干预!
正是通过这些分析资产(车辆行驶的每英里,涡轮叶片的每转,压缩机的每冲程,火车的停停和起步的每英里)的累积使用来推动资产的价值升值。
能够将一项自主资产的学习成果与其他类似自主资产共享的能力使可靠性,效率和安全性方面的改进变得更为迅速,从而迅速实现了实质性的整体改进。对于不喜欢随着时间的推移而增加1%的改进的力量的人们,将365倍(1.01 ^ 365)的复合提高1%等于38倍的整体改进(见图2)。
并且,随着诸如转移学习 和联合学习之类的AI功能的发展,利用从一类分析资产到另一类分析资产的学习成果的能力只会加速发展,变得更加普遍和普遍。
数据工程经济学
支持这一新的数据工程领域并推动确定诸如数据和分析之类的数字资产价值的重要经济原则。 例如,经济价值曲线是对自变量对因变量结果的影响的度量。 经济价值曲线面临的挑战是收益递减规律。收益递减定律是衡量生产过程边际(增量)产出减少的度量,因为单个生产要素的数量逐渐增加,而所有其他生产要素的数量保持不变(参见图3)。 )。
企业可以通过将预测分析应用于“事半功倍”来转变其经济价值曲线。也就是说,在获得更多输出的同时,减少投入。 结果是组织经济价值曲线的转变,以及利用分析来最佳地集中资源和确定资源优先级的能力(参见图4)。
“事半功倍”的关键是在单个实体(消费者,患者,操作员,涡轮,压缩机)的水平上执行预测分析。正是在这种情况下,才可以发现和整理可操作的见解的详细级别。
最后,正如我在“ Schmarzo经济数字资产评估定理”中所建议的那样,使用数据和分析的次数越多,它们变得越准确,越完整,越健壮,更具预测性并因此就越有价值(见图5)。
Schmarzo经济数字资产评估定理产生三个影响:
效果1:边际成本趋于平缓。重复使用“精选”数据和分析模块可减少新用例的边际成本。
效果2:经济价值增长。共享和重用数据和分析可加快实现价值的时间并降低实施风险
效果3:经济价值加速增长。使用相同的分析模型,优化分析模块可以提升所有相关用例的经济价值
简介: 规范化数据工程领域
我希望这两个博客有助于围绕这个新兴的数据工程领域进行对话和辩论。 有两个基于经济的重要原则将支撑数据工程领域:
原则1:精选数据永不耗尽,永不磨损,并且可以以接近零的边际成本使用无限数量的用例。
原则2:数字资产的使用价值越高,而不是贬值?也就是说,使用这些数字资产越多,它们就变得越准确,越可靠,越高效和安全。
我们所有人都需要时间,辩论和新的学习才能充分充实这个新的数据工程领域。 因此,束缚自己,准备一次“狂野而疯狂”的冒险!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







