楼主: 滨滨有利123
655 3

没想到数据分析训练营还有这些内容(Spark) [推广有奖]

  • 0关注
  • 31粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
383 小时
注册时间
2015-4-26
最后登录
2024-7-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

Spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

Spark是基于内存计算框架,计算速度非常之快,但是它仅仅只是涉及到计算,并没有涉及到数据的存储,后期需要使用spark对接外部的数据源。在常规的Spark介绍中,一定会跟大家介绍的就是Spark的各种特性内容:

一.spark特性

①速度快









②易用性









③通用信









④兼容性









二.数仓(数据分层)及常见的OLAP开源引擎

大数据分析中,底层基础的架构内容如数仓相关基础知识内容。类似数仓模型建设中,内容有关于明细模型、汇总模型、以及应用模型,然后在此基础上生成报表,辅助分析,引导规则或策略的制定等相关内容,其实也是各位同学非常关注的内容。









数据从底层结构到业务系统,其实是经过了各种ETL转换:









而实现这一块需要解决相关的常见的OLAP开源引擎,如:

Hive、Presto、kylin、impala、SparkSql、Druid、Clickhouse等等












在相关的底层据仓库的建设中,还有几大基础模型如,这个内容之前也更大家介绍过:

①星型模型

•星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。












②雪花模型

雪花模型也是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的,虽然这种模型相比星型模型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。









③星座模型

星座模型是星型模型延伸而来,星型模型是基于一张事实表的,而星座模型是基于多张事实表的,而且共享维度信息。通过构建一致性维度,来建设星座模型,也是很好的选择。比如同一主题的细节表和汇总表共享维度,不同主题的事实表,可以通过在维度上互相补充来生成可以共享的维度。









关于本次大数据相关的更系统性的内容,有兴趣的童鞋可关注:《第二期的数据分析训练营》








~原创文章

..

end


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Spark 数据分析 SPAR Park 没想到

沙发
小原诸 发表于 2022-1-11 13:10:01 来自手机 |只看作者 |坛友微信交流群
滨滨有利123 发表于 2022-1-10 20:30
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

...
不错不错

使用道具

藤椅
小原诸 发表于 2022-1-11 13:10:14 来自手机 |只看作者 |坛友微信交流群
滨滨有利123 发表于 2022-1-10 20:30
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

...
不错不错

使用道具

板凳
zpjzpj 发表于 2022-1-20 08:56:19 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-1 10:21