楼主: 时光永痕
252 0

[数据挖掘新闻] 当代数据科学家:大规模工作机器学习 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

45%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在最近的一次魔力象限数据科学和机器学习平台报告中表示,未来几年数据科学和机器学习平台市场将处于不断变化的状态。变革的驱动力之一是为数据科学家提供在企业层面管理模型和协作的能力,以及让用户开始使用的免费和开源选项的可用性数据科学以易于访问和低投资的方式进行机器学习项目。

蟒蛇今年在 Gartner 在报告中评估的供应商中首次亮相,在利基类别中占据了令人垂涎的位置。Anaconda 的优势之一是“它能够联合并为大量不断构建机器学习功能的 Python 开发人员提供中央访问点。” 90% 的受访者最近蟒蛇调查使用 Anaconda for Python,14% 的受访者认为机器学习是它的关键应用程序。

正如 Gartner 还指出的那样,该平台面向并适合熟悉 Python 和交互式笔记本概念的专家数据科学家社区,而不是面向业务的受众。

扩大

Anaconda 最近推出了其商业平台的最新版本,蟒蛇企业5.2,连同其开源 Anaconda 发行版,该发行版拥有超过 600 万用户在 Linux、Windows 和 Mac OS X 上执行 Python 和 R 数据科学和机器学习。

根据 Anaconda Inc. 产品和营销高级副总裁 Matthew Lodge 的说法,开源版本通常对数据科学家很有吸引力,因为他们自己工作,探索不同的数据模型,运行可视化,并尝试使用数据子集的不同方法可以装入他们笔记本电脑的内存中。企业版适用于从数据科学家的笔记本电脑一直到生产的数据科学和人工智能模型管道的开发。

“当他们需要在完整的数据集上进行训练时,他们需要规模,”洛奇说。“他们可以将他们使用笔记本电脑上的开源工具构建的环境转移到 Anaconda Enterprise,我们可以保证他们会得到相同的结果。”

他解释说,Anaconda Enterprise 就像一个支持层,帮助数据科学家与其他数据科学家协作进行大规模部署。

更大的可扩展性支持是最新 Enterprise 版本的主要功能,它为人工智能支持平台增加了 NVIDIA GPU 加速的可扩展机器学习功能。该公司表示,数据科学家可以从笔记本电脑上的模型开发到 1,000 个节点的 GPU 集群进行培训,再到全面治理的生产部署。

GPU 代表“图形处理单元”,这是多年前由 NVIDIA 创建的用于处理密集图形渲染任务的技术的名称。事实证明,用于加速图形的 GPU 计算适用于机器学习,洛奇也指出。

“GPU 对于进行大规模并行计算至关重要,”他说。但是,当用于机器学习时,如果 IT 必须为每个科学家提供自己的 GPU 以与笔记本电脑一起使用,它们可能是一种昂贵的资源。但是,当安排在一个由组织中的每个数据科学家共享的大型中央集群中时——在 Anaconda 5.2 的支持下——在完整的数据集上大规模训练模型变得经济可行。

Anaconda Enterprise 5.2,无论是部署在云端还是数据中心(可能用于金融服务等高度监管的行业),都利用了云原生模型管理。据该公司称,数据科学家可以在完整的数据集上大规模训练模型——包括有效利用 GPU 的调度——然后一键部署到生产中。他们无需成为容器、DevOps 或 Kubernetes 方面的专家即可完成所有工作。

“当你扩大容器规模时,你需要自动化运行大量容器的过程,”洛奇指出。随着组织构建其中央 GPU 集群,“我们负责管理它,以便对集群进行适当管理。就数据科学家而言,它只是有效的。我们在 Kubernetes 的掩护下完成工作。”

将 Anaconda 的平台与 IBM Watson Studio 和 Cloudera Data Science Workbench 等竞争对手区分开来的一件事是,“我们是唯一一家使用容器和 Kubernetes 的云原生技术来扩展数据科学部署的公司,”Lodge 说。

在其 2018 年数据科学状况报告中,Anaconda 询问受访者他们使用哪些技术来扩展他们的数据科学。该公司发现,

“Docker 以 19% 的份额表现强劲,以 15% 的份额击败了 Hadoop/Spark,以 5.8% 的份额紧随其后的是 Kubernetes。这一结果表明,像 Docker 和 Kubernetes 这样的现代云原生风格架构正处于优势地位,而牺牲了传统的 Hadoop“大数据”和 Apache Mesos(0.85%)。”

正如 Lodge 所说,环境已经达到云原生方法提供更低成本和更大灵活性的地步。他说,Hadoop MapReduce 不适用于机器学习,因为它不能让计算相互交流。此外,“Hadoop 中的 HDFS 存储成本约为每 TB 100 美元,而使用 Google 或 Amazon S3 的成本为每 TB 20 美元,”他说。

企业生态系统中的 Anaconda

使用 Anaconda 的组织中有电力和天然气公司 National Grid,该公司希望使用数据科学为其电力资产开发基于风险的监控和维护系统。它使用 Anaconda Enterprise 构建了机器学习模型,以实现更具成本效益的资产管理方法。

洛奇指出,直升机对实物资产的检查导致了不同传输设备的视频以及直升机飞过的所有其他设备,实际上必须有人观看视频并对可能需要维修的传输设备进行注释——一个过程这花了几个小时。

“现在它是自动的。通过使用机器学习来处理视频并剪掉直升机只是在飞行而不看设备的部分,它可以节省 86% 的检查时间,”Lodge 说。

国防高级研究计划局 (DARPA) 正在使用 Anaconda 进行模式识别,以指示人口贩运,这是一个手动过程。现在,它可以在数据中寻找模式,并通过机器学习自动寻找活动集群——帮助识别人口贩运团伙的个人的运动模式,他说。“这让他们更有效地大规模发现它们。” 这些只是 Anaconda 及其数据科学平台正在改变人们开展业务的方式的几个例子。这个行业还很年轻,但 Anaconda 正在帮助突破极限,以便一直在开发新的用例。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学家 数据科学 机器学习 大规模 科学家

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-1 17:22