CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(56)了,欢迎观看学习!
另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)
CDA数据分析师学习之路(56)
附赠《sql语言 05 使用连接符》干货视频
SQL-On-Hadoop的比较
Impala现在已成为性能、兼容性、可用性最好的分析数据库,为正确的job选择正确的引擎是非常重要的,尽管Impala显著的性能作为分析数据库的领导者,Impala作为最好的MPP查询引擎,适于交互查询为BI和SQL分析提供支持,但是Hive和Spark SQL在其他用例、场景下提供重要的能力。
Hive适于批处理,通过类SQL的语言比MR在数据准备、ETL上可用性更强,Impala的数据也是开发人员通过Hive产生的,Hive-on-Tez和Hive-on-Spark使得Hive的性能得到增强,接近Spark处理数据的速度。
Spark SQL是Spark的一种API,在Spark程序中嵌入SQL查询,它使得一般的数据处理如聚合、过滤、Join等用SQL简单的表达出来作为Spark应用程序的一部分。它提供了对RDD的SQL支持,也支持Parquet文件和Hive表,这可以让用户方便的分析复杂的数据。
尽管Spark SQL、Hive-on-Tez的性能已有显著的提升,但在多用户并发时,在交互延迟和并发上持续提供高性能的还是Impala。不过为了在统一的数据平台上有一个全栈式的解决方案,也会有越来越多的用户采用SparkSQL作为自身OLAP的解决方案。
感谢宋广磊老师提供资料!
附赠《sql语言 05 使用连接符》干货视频
【CDA数据分析师学习之路】sql语言 05 使用连接符
感谢孙增辉老师提供视频资料!
***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!
投稿联系方式:
小段老师QQ:2881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************
相关链接:
CDA数据分析师就业班第五期7月10号开课啦! https://bbs.pinggu.org/thread-4588274-1-1.html
CDA大数据分析师就业班第三期7月17号开课啦!https://bbs.pinggu.org/thread-4588371-1-1.html
上一篇:
CDA数据分析师学习之路(55)https://bbs.pinggu.org/thread-4605444-1-1.html
下一篇:
CDA数据分析师学习之路(57)https://bbs.pinggu.org/thread-4609972-1-1.html