楼主: ZQZ520
1844 1

[行业动态] Spark大数据分析师应用_CDA讲师团队分享 [推广有奖]

  • 2关注
  • 49粉丝

院士

17%

还不是VIP/贵宾

-

威望
4
论坛币
-1176554 个
通用积分
6481.7282
学术水平
99 点
热心指数
203 点
信用等级
94 点
经验
31703 点
帖子
655
精华
7
在线时间
2457 小时
注册时间
2014-5-7
最后登录
2021-8-4

楼主
ZQZ520 在职认证  发表于 2015-12-15 18:38:46 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

工资要加剧——就学大数据 CDA大数据分析师大放干货



      Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Spark项目将一系列创新型思维带入了大数据处理市场,并且表现出极为强劲的发展势头。近年来,人大经济论坛大数据分析团队针对Spark框架开展了广泛深入的研究,并融入到大数据分析师的培训课程中,使得整个课程体系变得更加完善,我们相信,随着整个团队的不断努力,我们的大数据分析师培训项目将日臻完美。


一、Spark的发展

      Spark是伯克利大学2009年开始研发的一个项目,于2010年开源。自从2013年Spark进入Apache的孵化器项目后,发生了翻天覆地的变化。2014年初,Spark成为了Apache排名第三的顶级项目,其发展势头更加迅猛。Spark通常一个多月就会发布一个小版本,两三个月左右会发布一个大版本,目前最新版本为1.5.2。2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。目前参与贡献的公司也超过50家;代码库也由原来的63000行增加到175000行。图1为截止到2014年的Spark代码贡献者每个月的增长曲线。仅2014年,在世界各地召开了多次以Spark为主题的峰会。这些足以说明Spark的前沿性与火爆的发展势头。

图一.png

图1. 代码贡献曲线

      近两年,Spark在中国的发展达到了一个前所未有的状态和高度。其中阿里巴巴的搜索和广告业务,最初使用Mahout和MapReduce来解决复杂的机器学习问题,但是在效率和代码维护方面并不理想,现已转向Spark框架。淘宝技术团队使用Spark实现了多次迭代的机器学习算法和一些高计算复杂度的算法,并将其运用在推荐系统上;同时还利用Spark中的一系列组件解决了基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等许多生产问题。此外,腾讯也是最早使用Spark的应用之一。借助Spark快速迭代的优势,腾讯提出了大数据精准推荐,并采用“数据+算法+系统”这套技术方案支持每天上百亿的请求量。


二、Spark四大特性特性一:快速

      相同的实验环境与数据下,在内存中运行相同的程序,Spark比MapReduce快约100倍;在磁盘中运行相同的程序,Spark要MapReduce快约10倍。例如图2所示,Spark和MapReduce进行逻辑回归运算后的实验数据。

图二.png

图2.基于内存的逻辑回归对比实验

        针对于非常考验系统性能的排序问题,图3是Spark与MapReduce对100TB数据样本排序的实验结果:MapReduce用了2100台机器,花费72分钟;而Spark仅用207台机器,不到前者的1/10,花费23分钟,接近前者的1/3。

图三.png

图3.基于硬盘的100T数据排序对比实验

      此外,众多实验表明,在处理迭代式应用上Spark比MapReduce快20多倍;计算数据分析类报表的性能提高了40多倍;Spark能够在5-7秒的延时内交互式扫描1TB数据集。


      Spark运行速度如此之快,主要得益于以下两方面:一方面,Spark中的运算大多是基于内存的。Spark提出了一种分布式的内存抽象,称为弹性分布式数据集(RDD,Resilient DistributedDatasets)。RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错、位置感知调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。另一方面,Spark从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG,然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。尽管非循环数据流是一种很强大的抽象方法,但仍然有些应用无法使用这种方式描述。Spark能够在多个并行操作之间重用工作数据集,适用于非循环数据流模型难以处理的应用。


特性二:易用

       Spark编程非常高效、简洁,支持多种语言的API,如Java, Scala, Python等,而且代码非常简洁。例如在基于MapReduce开发的WordCount示例程序中,用户需要重写Map类和Reduce类,虽然MapReduce类似八股文的程序编写模式极大地简化了并行程序开发过程,但是程序代码至少几十行。若基于Spark开发同样的WordCount程序,仅需下面短短的几行代码,例如下面程序是对存储在HDFS上的wc.input中的单词个数进行统计:

sc.textFile("hdfs://master:8020/user/dong/spark/wc.input").flatMap(_.split("")).map((_,1)).reduceByKey(_+ _).collect

       由此可见,Spark编程非常简洁。这主要是因为Spark是基于Scala开发,其对数据处理提供了丰富的操作,极大地提高了用户的程序开发效率。

目前基于Spark的实际项目开发中约70%采用Scala语言,这是因为Spark本身就是基于Scala开发的;其次是JAVA,约占20%;此外还有Python等。


特性三:通用

      相对与第一代的大数据生态系统Hadoop中的MapReduce,Spark 无论是在性能还是在方案的统一性方面,都有着极大的优越性,虽然MapReduce在此方面也在做积极的努力,但Spark的优势还是明显的。Spark框架通常涉及到五个最核心的组件。如图4所示,位于下面的Apache Spark又称为Spark Core。在Spark Core的基础上,针对一些特殊的需求,Spark开发了一系列组件:Spark SQL(在Spark上建立是SQL,类似于Hive);Spark Streaming(实时流处理系统);MLlib(用户友好的机器学习库);GraphX(图处理组件),此外还有一个BlinkDB(基于海量数据的交互式查询引擎,能够在设定的误差范围内或响应时间内进行SQL查询)。将这些组件放在一起,就构成了一个Spark的软件栈。基于这个软件栈Spark提出并实现了一种理念“one stack to rule them all”,即Spark可以对大数据进行综合处理:实时数据流处理、批处理和交互式查询。这一软件栈就体现了Spark的通用性。

图四.png

                图4. Spark软件栈图                 

图五.png

图5. Spark对大数据的综合处理示意图


特性四:多种运行模式

      在运行方面,Spark的运行无处不在。Spark既可以运行本地local模式,也可以以Standalone、cluster等多种模式运行在Yarn、Mesos上,还可以运行在云端例如EC2。此外,Spark的数据来源非常广泛,可以处理来自HDFS、HBase、 Hive、Cassandra、Tachyon上的各种类型的数据。



项目:CDA大数据分析师8天周末班第八期

时间:2016年10月15日——2016年11月06日

费用:8800元(现场班)/5800元(远程直播)


项目:CDA大数据分析师3月脱产班第四期

时间:2016年10月30日——2017年2月12日

费用:19800元(现场班)/14800元(远程直播)


(大数据周末班)



(大数据脱产班)


在线咨询:

座机:010-68456523

QQ:28819897122881989712(张老师)

         28819897052881989705(樊老师)

手机:13718534278

          18611083334


         



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据分析师 大数据分析 数据分析师 Spark 数据分析 孵化器 伯克利大学 培训课程 投资回报 分析师




CDA数据分析交流群 217748971
沙发
0795fights 发表于 2015-12-15 18:44:16 |只看作者 |坛友微信交流群
第一阶段
系统基础篇 15天
1.开学典礼及大数据概述 1天
2.linux操作系统及 2天
3.unbuntu系统介绍 1天
4.JAVA基础 5天
5.python基础 4天
6.hadoop单机、伪分布、集群搭建 2天
第二阶段
hadoop生态实战篇 15天
1.HDFS深入剖析 1天
2.MapReduce基础理论及高级编程实战 3天
3.Pig原理,部署与Pig Latin语言,应用案例 1天
4.Hive体系架构、安装与HiveQL及Hive应用案例 3天
5.Zookeeper与分布式系统开发 1天
6.HBase体系架构,集群部署,管理 2天
7.HBase数据模型,实战案例建模剖析 3天
8.strom入门及部署 1天
第三阶段
数据分析理论篇 15天
1.SPSS软件入门 1天
2.数据分析之统计基础(使用软件为SPSS) 4天
3.R软件操作入门 1天
4.数据挖掘之聚类(使用软件为R) 3天
5.数据挖掘之分类(使用软件为R) 4天
6.数据挖掘之关联规则(使用软件为R)2天
第四阶段
大数据分析案例篇 15天
1.大数据可视化技术及工具简介 1天
2.大数据背景下隐私保护及技术介绍 1天
3.大数据的分析方法--SMART模型介绍 1天
4.基于hadoop+Mahout的8个大数据分析案例实战 2天
5.Spark基础原理、集群安装并运行Spark 2天
6.Spark SQL 原理及数据整合应用 2天
7.Spark GraphX图计算方法应用 1天
8.Spark 推荐应用(ALS方法,FP-growth方法)2天
9.Spark 数据建模流程(logistics回归,决策树,朴素贝叶斯方法)3天
第五阶段
毕业篇 6天
1.毕业设计 5天
2.毕业典礼 1天

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 00:40