主要特征:
包含解决Apache Spark实时数据处理问题的方法
利用核心Spark模块,如Spark SQL,Spark MLlib,Spark Streaming和GraphX处理
一个实用的指南,帮助您掌握Apache Spark作为您的大型数据计算平台
图书说明
虽然Apache Spark 1.x在早期获得了很大的牵引力和采用,但Spark 2.0在API,性能,结构化流媒体方面提供了非常显着的改进,并简化了构建块,以构建更好,更快,更智能和可访问的大数据应用。本书以结构化配方的形式发现所有这些功能,以分析和成熟大型和复杂的数据集。
从安装和配置Apache Spark与各种群集管理器开始,您将学习设置开发环境。此外,您将介绍如何使用RDD的数据帧来对具有模式的数据进行操作,以及使用诸如Twitter Stream和Apache Kafka之类的各种源实时流式传输。您还将通过有关机器学习的食谱,包括监督学习,无人值守学习,推荐引擎,深入学习算法和Spark上的GPU实现。
最后,最后几章将帮助您深入了解使用GraphX的图形处理概念,确保实现,集群优化和故障排除。
你会学到什么:
使用各种群集管理器安装和配置Apache Spark
为Apache Spark设置开发环境
学习使用具有模式的Spark中的数据操作
使用Spark Streaming掌握实时流分析
大师使用MLlib监督学习和无监督学习
使用MLlib构建推荐引擎
使用Tensorframes来处理Spark的DataFrames,使用TensorFlow程序进行深度学习
开发一套常见的应用程序或项目类型以及解决复杂大数据问题的解决方案
封面: