你一看文件有几十个 GB 大,有点傻眼,不过还是熟练地打开 Python,准备把数据导入 Pandas 中,结果发现死机了,排气扇嗡嗡地狂转,半天都没有反应,你不甘心,重启电脑尝试了一遍依然没用,折腾了好一阵子,也快到了下班时间,你开始手脚冒汗,担心完不成任务。
然而下班时间还是到了,上司悠悠然的声音从背后飘来:弄好了么?
你吱吱呜呜地,不知怎么回答,嗯,额,马上就好。
上司:那现在发给我啊?
你觉得无法再糊弄过去了,干脆交待吧,剩下的听天由命:文件太大,我用 Python 处理不了。
上司:嗯?就是说还没开始么?
你:是,是的。。。
时间仿佛凝固了几秒,空气也不流动了。
上司突然笑道:其实,是专门甩给你这么大个数据的。
你:啊?为啥?
上司:想让你知道,别一天到晚拿到数据就上 Python搞,Pandas 处理几 GB 以内的小数据还搞地定,体验不到性能差异,但是像今天这么大的数据,Pandas 很难处理,内存吃光都不够用,电脑卡死,你就只能干瞪眼。
你:那怎么处理这些大数据?
上司不紧不慢道:其实这点数据不算大,顶多算 Large Data,要上到 Big Data 起码要到 TB 级别。由于算法和本地内存的限制,Pandas 在处理 Big Data 方面有自己的局限性。所以这么大的数据一般都用 Hadoop 或者 Spark 等工具来处理,同时Spark还有python的接口,可以在Spark平台上运行Python,速度杠杠的。
你:Hadoop 或者 Spark 是什么?
上司:去学点大数据分析吧。】
上面的段子你可能觉得只是在说笑,大数据离你很远。其实,大数据早都渗透到你生活中了,你上网购物,下次就会根据你的购物习惯给你推荐新产品;你打滴滴,滴滴会迅速匹配到离你最近的司机。
现在有一个很热门的职业叫做「大数据分析师」,薪资比普通数据分析师高地多。在美国,与大数据相关的职位统称为「数据科学家」;而在国内,与大数据相关的岗位则细分得多,按照级别主要分为数据分析、数据挖掘、数据工程师、数据架构师这几类。
我们可以得到如下结论:普通的数据分析师具有一定的数理统计基础,熟悉业务逻辑,能熟练地操作传统的数据分析软件,能使数据成为企业的智慧。他们通常遇到的都是一些结构化、体量小的小数据。而大数据分析师更专注数据获取的架构设计、数据分析模型的选择、指标的选取,他们具有数据分析师的理论素养和业务能力,面对大数据,他们有一整套分布式的数据获取、整理、处理和分析的方案,而且这个方案最终的目标是为数据分析服务,他们具有大数据分析的利器,如Hadoop、Spark等软件。
如果你一直或者现在对「大数据分析师」很感兴趣,但一直不知如何去学它,我想和你分享一下入门大数据分析的路径。
你可能会感叹,大数据分析师仅仅比数据分析师多了个「大」字,要学习的东西就要多这么多。是的,不然大数据分析师的薪资会高么多。不过我觉得是值得的,趁年轻多学点技能傍身,不断挑战自己,未来你会感谢现在拼命的自己。
【CDA大数据分析师集训课程】以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、hive和Hbase等理论知识和基于Spark的大数据分析和机器学习知识,详细演示Hadoop三种模式的安装配置,以案例的形式,讲解基于PySpark技术的回归、分类和聚类分析等大数据分析案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,手把手带练,3个月成为行业急需的大数据分析人才。讲解案例包括但不限于金融大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。
一、课程信息
时间:2020年3月28日(3个月周末集训)
地点:全国直播
授课安排:8800元
二、如何报名?
1. 在线填写报名信息
电脑端:https://www.cda.cn/kecheng/35.html
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
咨询电话:4000519191