当我今天前往 AWS 峰会时,我一直在思考它的起源——它是如何为 Amazon 开始的,以及让它发生的魔力。
事实证明,亚马逊履行其产品订单的方式与数据工程师需要向数据科学家和分析师提供的数据工作集之间有很多相似之处。首先,它们都存储在仓库中。在我更多地谈论数据世界之前,让我们多谈谈基础知识——世界上最大的零售商亚马逊如何处理每天提交的数百万个订单。
我惊讶地发现,从早期开始,亚马逊在组织仓库的方式上就陷入了混乱。您可能会认为,鉴于亚马逊的效率如此之高,传统组织的仓库将是促成事情发生的重要组成部分。奇怪的是,亚马逊的仓库之所以能运作,是因为它们不组织库存——这完全是随机的。产品/物品被分发和存储在任何地方:牙膏旁边是一瓶酒,酒瓶旁边是搅拌机。截至 2019 年,亚马逊通过 Amazon Prime 销售和交付的产品超过 10 亿件,每天交付数百万个订单。因此,尽管物品无处不在,但最重要的方面是它们可以跟踪并准确了解每件物品的位置。
拣货员(过去是一个人,但越来越多地是机器人)使用仓库中可以找到物品的地图来整理由许多不同物品组成的订单(在数百万个订单中一次几个) (当然,以优化的方式)。订单最终会按时(大部分时间)交付给您。
现在,虽然这适用于 Amazon Prime 的 2 天运输要求,但 Amazon Prime Now(1 小时交货)迫使亚马逊将事情提升到一个新的水平。这些是最受欢迎、最重要的100万件产品多于一个亿产品亚马逊有。在这种情况下,重要的一点是,履行中心在物理上更靠近买家,在他们的所在地,并且只储存这数百万件受欢迎的商品。拣货员再次将订单放在一起,每个订单都包含许多物品,这些物品会在不到一小时的时间内交付给您。
您实际上可以将很多这些概念应用于数据世界或大数据正如我们一直所说的那样。
您会认为数据分析师/数据科学家(Prime 订阅者)对所需数据集(其中包含大量项目的订单)的请求(订单)在虚拟世界中会容易得多。它肯定会比 Prime 运送所需的 2 天更快。您会认为即使是 1 小时(Prime Now)的周转也很容易;实际上,您会认为它会根据需要按需交付。
但事实并非如此。数据越来越无处不在,分布在许多不同的存储系统、不同的数据中心、不同的区域、不同的云中。技术并没有拥抱混乱,而是越来越努力地组织它并将其推入一个单一的数据湖中。此外,需要满足数据分析师将来自许多不同来源的数据集组合在一起的请求的“选择器”是没有工具来自动组合数据集请求的数据工程师。相反,他或她最终会一次又一次地复制数据。数据集的交付可能需要几天甚至几周的时间。
除非您像亚马逊一样优化端到端流程的编排,否则很难实现按需交付数据集。
首先,通过拥抱数据孤岛来拥抱混乱。数据到处都是,其实没关系;重要的是您知道它在哪里(例如在亚马逊仓库中),并且您可以根据需要协调它的移动以完成请求(例如仓库中的拣货员)。此外,最重要的数据和最流行的数据需要尽可能靠近消费者,(即靠近计算),以实现数据本地化(很像Prime Now在重点城市的履行中心) .
这就是数据编排。这是一种构建现代、分类分析堆栈的新方法。通过为计算框架编排活动工作集,现在可以按需进行。就像零售业在人们意识到他们可以在明天订购并得到它时就发生了翻天覆地的变化一样,我相信数据行业将会好转,因为数据编排可以按需提供数据请求。
相关帖子DA内容精选
|