该技术旨在突破当今限制应用程序和人们从任何位置以任何格式访问数据源的能力的“围墙花园”。随着企业继续转向混合和多云架构,并且随着数据的不断增长,跨数据生态系统的前向兼容性变得越来越重要。
一个开源项目,超光速粒子, 由加州大学伯克利分校的 AMPLab,旨在防止存储成为工作负载的瓶颈。Haoyuan Li 是 Apache Spark Streaming 的共同创建者,也是 Apache Spark 创始项目管理委员会 (PMC) 的成员,他创建了分布式文件系统,可在集群计算框架之间以内存速度实现可靠的数据共享。雅虎、Tachyon Nexus、Redhat、诺基亚、英特尔和 Databricks 都是它的贡献者。
Tachyon 现在被称为阿卢西奥 今天用于生产环境,为阿里云、巴克莱、ING、微软和许多其他大公司管理 PB 级的数据。最大的部署超过 1300 个节点。李现在是公司的首席技术官。
迁移到云和云分析
首席执行官 Steven Mih 在最近的一次 DATAVERSITY® 采访中表示,存储系统在过去十年中确实占据主导地位,但现在该行业正在转向云计算和云分析系统。和数据编排对于将数据从不同系统移动到组织想要使用的新框架来说,这确实至关重要。
“数字化转型陷入了二档,”Mih 说。对于数据驱动的数字化转型,数据需要快速提供给分析系统。但是当数据分布在多个数据中心或云上时,查询可能需要将数据从一个地方传输到另一个地方,从而导致巨大的延迟。
Alluxio 位于计算和存储之间,提供单点数据访问和集成。正如 Mih 所说,数据编排解决方案并不是要摆脱数据孤岛,而是要“拥抱混乱”。“让需要数据的应用程序能够拥有一个将数据拉给他们的系统。那将是混合云和多云的世界。”
被访问的数据——无论是在本地存储系统上还是在公共云中——都被移动到内存中。在第一种情况下,可以以网络的速度提供数据,在第二种情况下,可以以本地内存或磁盘的速度提供数据。然后将远程访问的数据移动到本地集群的内存中。
数据可以在本地用于计算 Spark、Presto 和 Hive 缓存的工作负载;无论是在本地还是在云中,文件和对象都可以访问——而且是弹性的,因为您可以跨平台编排数据多云.
由于最简单的形式是一个虚拟文件系统,它透明地连接到现有存储系统并将它们作为一个单一系统呈现给用户,Alluxio 可以帮助解决深度学习的数据管理挑战。因为它可以与存储系统集成,深度学习框架只需要与 Alluxio 交互就可以访问所有存储中的所有数据。该公司表示,通过这种方式,可以对来自任何数据源的所有数据进行训练,从而提高模型性能。
数据争吵之死
如果可以避免的话,没有人愿意纠缠数据(将数据复制到可能位于云或其他地方的不同数据孤岛)。Alluxio 帮助用户超越使用 API 一次将所有东西连接在一起。
Mih 说,借助大量集群框架系统,无论何时您拥有一个新集群,您都必须让 API 与您的数据源一起工作。“假设您有五个框架和一个数据源——即五个连接器。如果你有第二个数据源,那就是十个连接器,对吧?” 不断地。
用层重新思考这一点意味着将新的数据源插入枢纽——即中央交通中心。“我们将采用以应用程序为中心的视图,而不是以存储为中心的视图,”Mih 说。这有助于遵守数据法规以及按需提供数据。
在这方面,没有理由将来自旧平台的所有数据(可能达到数百 TB)一次全部放入云中。
“你可以把你的相关数据放到云端,”他说。“相关数据量只占您数据的一小部分,而这才是您真正关心的。这可能只占全部数据的 3% 到 5%。数据编排使我们所谓的“数据活动站点”可用且具有弹性。”
组织可以逐渐移动数据,直到他们准备好完全迁移到云端。
“这就是人们要去的方向,”他说。“他们会迁移,很可能会从混合环境开始,然后迁移到单一云环境,然后再迁移到多云环境。那时,您拥有多个数据孤岛,这些数据是基于创建运营数据的不同应用程序生成的。”
从成本的角度来看,使用数据编排是成本最低的方式运行分析,米说。“您拥有维护存储操作的最低、最简单的位置,并且您将拥有用于分析的横向扩展系统的操作,因此您无需为未使用的计算付费。这就是新的现代数据分析,它需要包括数据编排。”
相关帖子DA内容精选
|