通过喜剧电影的镜头对大数据和数据科学的预测
我又是一年中的那个时候,看着水晶头骨……球,对来年在大数据和数据科学中所预见的持续挑战和新趋势做出一些预测。
是数据“业务模型”转型,而不是数字化
数字化转型不仅仅局限于“数字化”。 我选择“土拨鼠日”来代表人们如何一遍又一遍地混淆数字化-这是将数字技术(例如云原生应用程序和移动设备)集成到现有的运营流程中-与数字化转型-这是 关于利用数字货币的经济学大数据,物联网和高级分析(机器学习,深度学习,人工智能),以发现客户,运营和市场价值的新来源。
数字化用传感器代替以人为中心的流程来收集使用情况或性能数据,而数字化转型则使用机器学习,深度学习和区块链等数字技术来创建客户和市场价值的新来源,并重新设计组织的业务模型(请参见图1)。
图 1: 数字化与数字化转型
参见博客“这不是数字化转型;这是数字“业务”转换... ”,详细了解数字转换的真正含义。
数据货币化仍然是CIO的第一大挑战
我选择“其他人的钱”作为电影,代表了首席数据官(CDO)在试图推动数据货币化方面面临的挑战。 数据货币化问题的部分原因在于,许多组织认为“货币化”一词代表“交换价值”(有人愿意为我的数据付钱给我)与“使用价值”(利用隐藏的见解)在数据中创造新的价值来源)。
这是经济学的对话,而不是会计的对话!
我预测2019年将是组织的首席数据官将其章程聚焦于数据货币化的一年。 但是,正如我过去所说的那样,我认为领先的组织将把CDO的名称重命名为“首席数据货币官员”,以阐明章程,并使CDO / CDMO的角色与CIO的角色不同,后者主要致力于管理基础架构。支持组织的数据(请参见图2)。
图 2:数据货币化始于业务
请参阅博客“数据货币化?提示“首席数据获利官”,以获取更多信息,以了解首席数据官职责在驱动组织的数据获利策略中的作用。
数据湖继续表现不佳
我选择“飞机,火车和汽车”作为许多组织与数据湖的斗争的代表。 数据湖的交付仍然不足,但是在2019年,组织将意识到他们的数据湖性能问题不是技术问题,而是焦点问题。 太多的组织过于专注于使用数据湖来降低与数据相关的成本(通过数据仓库ETL卸载,数据归档和数据分段)。CIO失去了将其数据湖转换为协作价值创造平台的更大机会,业务利益相关者和数据科学团队可以在该平台上进行协作,以利用数据和分析来支持组织的关键业务计划,例如减少客户流失,计划外的运营停机以及过时和过多的库存;或改善准时交货(请参见图3)。
图 3:Data Lake是一个协作式价值创造平台
请参阅博客“意识到数据货币化的潜力……我是否有兴趣...?” 有关将数据湖转换为组织的协作价值创造平台的更多详细信息。
数据工程炙手可热
我选择了“我们完成了吗?”代表着2019年是数据工程作为数据科学界的正式成员应受到应有的尊重的一年。 数据科学家的工作效率与其拥有的数据一样有效,并且要使数据科学家有效,他们需要有一名数据工程师犯罪分子。
数据工程师:
共同开发大数据架构,帮助分析和处理组织所需的数据,并进一步优化这些系统以使其平稳运行。
从各种传统和非传统来源收集数据,将其存储在数据湖中,清理和集成数据(数据准备)以进行分析。
评估,比较和改进不同的方法,包括设计模式创新,数据生命周期设计,数据本体对齐,带注释的数据集和弹性搜索方法。
“整理”数据,使用算法(例如,排序,解析)将原始数据转换,映射和“处理”为预定义的数据结构,并将结果存储到数据科学家的数据湖中(参见图4)。
图 4: 数据科学界的角色和责任
有关您的数据科学社区成员的角色和职责的更多详细信息,请参见博客“构建数据科学团队的成功游戏计划”。
过度宣传AI会延迟业务收益
我选择“ Tin Men ”来代表2019年对人工智能(AI)功能的过度炒作,我希望这种情况会变得更糟(我希望注入AI的Skippy花生酱和Cap'n Crunch谷类食品即将来临! )。AI在更多的文化干扰和人类失业预言周围过度炒作,导致驱动AI的商业化和货币化的进展较少。
但是人们逐渐开始意识到人工智能,特别是以机器学习的形式(即线性回归,逻辑回归,决策树,K最近邻,支持向量机)已经存在了数十年,而没有引起任何重大的文化转变。或人类的灭亡。我还没有看到一个K-means集群(一种无监督的机器学习算法)将无助的人围困到死亡集中营……但是。
不幸的是,所有AI的过度炒作和震惊都会延迟AI的业务,运营和社会利益(见图5)。
图 5: 过度宣传AI等新技术的经济成本
请参阅博客“为什么接受炒作?是时候改变我们如何处理新兴技术... ”,以了解有关过度宣传AI和区块链等新技术的经济成本的更多详细信息。
明天之战在边缘
我选择了“明日之刃”来代表IoT Edge之战(什么,你不认为电影是一部喜剧吗?)。 物联网优势之战将由工业(OT)公司而非技术(IT)公司进行。 边缘不是从IoT网关开始,而是从PLC和生成数据的传感器开始。 随着更多的存储,计算,机器学习和AI功能推向边缘,这些PLC变得越来越智能。
太多的IT公司将物联网(IoT)视为要存储在其存储设备中的另一个数据源。但是物联网不仅仅是另一个数据源。物联网代表了在数据捕获时采取行动的能力;将机器学习应用于数据捕获以优化运营决策。
这就是边缘的力量(请参见图6)。
图 6: 先进的IoT架构支持边缘数据捕获,分析和操作
有关物联网提供的数据和分析功能的更多详细信息,请参见博客“明天将在边缘进行数字化转型之战”。
1