在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。
Spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
Spark是基于内存计算框架,计算速度非常之快,但是它仅仅只是涉及到计算,并没有涉及到数据的存储,后期需要使用spark对接外部的数据源。在常规的Spark介绍中,一定会跟大家介绍的就是Spark的各种特性内容:
一.spark特性
①速度快
②易用性
③通用信
④兼容性
二.数仓(数据分层)及常见的OLAP开源引擎
大数据分析中,底层基础的架构内容如数仓相关基础知识内容。类似数仓模型建设中,内容有关于明细模型、汇总模型、以及应用模型,然后在此基础上生成报表,辅助分析,引导规则或策略的制定等相关内容,其实也是各位同学非常关注的内容。
数据从底层结构到业务系统,其实是经过了各种ETL转换:
而实现这一块需要解决相关的常见的OLAP开源引擎,如:
Hive、Presto、kylin、impala、SparkSql、Druid、Clickhouse等等
在相关的底层据仓库的建设中,还有几大基础模型如,这个内容之前也更大家介绍过:
①星型模型
•星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。
②雪花模型
雪花模型也是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的,虽然这种模型相比星型模型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。
③星座模型
星座模型是星型模型延伸而来,星型模型是基于一张事实表的,而星座模型是基于多张事实表的,而且共享维度信息。通过构建一致性维度,来建设星座模型,也是很好的选择。比如同一主题的细节表和汇总表共享维度,不同主题的事实表,可以通过在维度上互相补充来生成可以共享的维度。
关于本次大数据相关的更系统性的内容,有兴趣的童鞋可关注:《第二期的数据分析训练营》
~原创文章
..
end