简介
大数据必须具有分布式存储以及分布式计算才能够处理。 有了Spark之后使用Python开发Spark程序,常用的机器学习API有两种:Spark Mllib (ROD-Based 机器学习API) 和Spark ML Pipeline机器学习API。
Spark ML Pipeline是Spark受Scikit-Learn程序启发所设计的机器学习架构。其工作流程与石油管道类似,就是将机器学习的每—个阶段建立成Pipeline流程:利用Spark DataFrame提供的API轻松读取大数据中的各种数据源,通过SparkDataFrame 与PandasDataFrame相互转化,轻松实现数据处理、建模、预测,最后产生预测结果。
本阶段的学习是PySpark学习中最重要的内容, 学员完成该内容的学习,能够掌握重要的Spark机器学习工具,能够在大数据集群上实现分布式机器学习运算,胜任大数据分析领域中中高级岗位。
课程内容
大数据分析利器:spark_mllib
课程地址:《CDA大数据就业班体验课——大数据分析利器:Spark_MLlib》
DA内容精选


雷达卡





京公网安备 11010802022788号







