人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 数据编排让您的数据更接近并让访问更快

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 时光永痕

305 0

[数据挖掘新闻] 数据编排让您的数据更接近并让访问更快 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）三级

54%

威望: 0 级
论坛币: 26 个
通用积分: 49.7576
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 316 小时
注册时间: 2020-7-21
最后登录: 2024-4-28

楼主

时光永痕

发表于 2022-6-22 14:11:55 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据编排意味着试图将秩序和速度带入复杂的大数据生态系统，由 Amazon S3、Apache HDFS 或 OpenStack Swift 等存储系统以及 Apache Spark 和 Hadoop MapReduce 等计算框架和应用程序组成。由于数据孤岛的激增，数据堆栈是碎片化的并且对性能提出了挑战。

该技术旨在突破当今限制应用程序和人们从任何位置以任何格式访问数据源的能力的“围墙花园”。随着企业继续转向混合和多云架构，并且随着数据的不断增长，跨数据生态系统的前向兼容性变得越来越重要。

一个开源项目，超光速粒子, 由加州大学伯克利分校的 AMPLab，旨在防止存储成为工作负载的瓶颈。Haoyuan Li 是 Apache Spark Streaming 的共同创建者，也是 Apache Spark 创始项目管理委员会 (PMC) 的成员，他创建了分布式文件系统，可在集群计算框架之间以内存速度实现可靠的数据共享。雅虎、Tachyon Nexus、Redhat、诺基亚、英特尔和 Databricks 都是它的贡献者。

Tachyon 现在被称为阿卢西奥今天用于生产环境，为阿里云、巴克莱、ING、微软和许多其他大公司管理 PB 级的数据。最大的部署超过 1300 个节点。李现在是公司的首席技术官。

迁移到云和云分析

首席执行官 Steven Mih 在最近的一次 DATAVERSITY® 采访中表示，存储系统在过去十年中确实占据主导地位，但现在该行业正在转向云计算和云分析系统。和数据编排对于将数据从不同系统移动到组织想要使用的新框架来说，这确实至关重要。

“数字化转型陷入了二档，”Mih 说。对于数据驱动的数字化转型，数据需要快速提供给分析系统。但是当数据分布在多个数据中心或云上时，查询可能需要将数据从一个地方传输到另一个地方，从而导致巨大的延迟。

Alluxio 位于计算和存储之间，提供单点数据访问和集成。正如 Mih 所说，数据编排解决方案并不是要摆脱数据孤岛，而是要“拥抱混乱”。“让需要数据的应用程序能够拥有一个将数据拉给他们的系统。那将是混合云和多云的世界。”

被访问的数据——无论是在本地存储系统上还是在公共云中——都被移动到内存中。在第一种情况下，可以以网络的速度提供数据，在第二种情况下，可以以本地内存或磁盘的速度提供数据。然后将远程访问的数据移动到本地集群的内存中。

数据可以在本地用于计算 Spark、Presto 和 Hive 缓存的工作负载；无论是在本地还是在云中，文件和对象都可以访问——而且是弹性的，因为您可以跨平台编排数据多云.

由于最简单的形式是一个虚拟文件系统，它透明地连接到现有存储系统并将它们作为一个单一系统呈现给用户，Alluxio 可以帮助解决深度学习的数据管理挑战。因为它可以与存储系统集成，深度学习框架只需要与 Alluxio 交互就可以访问所有存储中的所有数据。该公司表示，通过这种方式，可以对来自任何数据源的所有数据进行训练，从而提高模型性能。

数据争吵之死

如果可以避免的话，没有人愿意纠缠数据（将数据复制到可能位于云或其他地方的不同数据孤岛）。Alluxio 帮助用户超越使用 API 一次将所有东西连接在一起。

Mih 说，借助大量集群框架系统，无论何时您拥有一个新集群，您都必须让 API 与您的数据源一起工作。“假设您有五个框架和一个数据源——即五个连接器。如果你有第二个数据源，那就是十个连接器，对吧？” 不断地。

用层重新思考这一点意味着将新的数据源插入枢纽——即中央交通中心。“我们将采用以应用程序为中心的视图，而不是以存储为中心的视图，”Mih 说。这有助于遵守数据法规以及按需提供数据。

在这方面，没有理由将来自旧平台的所有数据（可能达到数百 TB）一次全部放入云中。

“你可以把你的相关数据放到云端，”他说。“相关数据量只占您数据的一小部分，而这才是您真正关心的。这可能只占全部数据的 3% 到 5%。数据编排使我们所谓的“数据活动站点”可用且具有弹性。”

组织可以逐渐移动数据，直到他们准备好完全迁移到云端。

“这就是人们要去的方向，”他说。“他们会迁移，很可能会从混合环境开始，然后迁移到单一云环境，然后再迁移到多云环境。那时，您拥有多个数据孤岛，这些数据是基于创建运营数据的不同应用程序生成的。”

从成本的角度来看，使用数据编排是成本最低的方式运行分析，米说。“您拥有维护存储操作的最低、最简单的位置，并且您将拥有用于分析的横向扩展系统的操作，因此您无需为未使用的计算付费。这就是新的现代数据分析，它需要包括数据编排。”

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

大厂数据分析面试指南！来自亚马逊、谷歌、微软、头条、美团的面试问题！

机器学习模型方法总结

历史最全机器学习/深度学习/人工智能专业术语表中英对照表

机器学习如何应用于商业场景？三个真实的商业项目

数据工作者的自我修养 | 哪些技能是必不可少的？

《汗牛充栋：数据分析书籍分享》CDA网校新课上线

文本挖掘常用的107个语料库

一图读懂“东数西算”工程

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Apache Spark OpenStack streaming MapReduce apache