做数据分析师这一年的酸甜苦辣_做数据分析师难不难?
这篇文章算是【经验分享】我是如何从文科生零基础一步步走上数据分析之路的 的续集。
最近刚好工作一周年,特别想写点东西总结一下做数据分析师这一年的酸甜苦辣。借着自己之前写过的文章,索性就打算写个续集,主要记录点自己工作这一年来深入学习数据分析的经历。一方面是总结自己学到的数据挖掘知识,查漏补缺,另一方面也是想和大家交流,希望自己的经历对大家有所帮助。
在之前的文章中,我主要讲述自己是如何从一个文科生慢慢像数据分析方向转变的过程。描述的是自己在学校中的学习经历,因此有些地方会与实际工作脱节。这篇文章将会主要从工业应用的角度去讲述我这一年来的学习历程,多会集中在一些学习心得上面。
踏入社会
我在14年接近年底的时候才开始正式工作,时至今日换了三份工作。换工作的原因很简单:干的不爽,钱给的不够!
在拥有第一份工作的时候,头衔是“数据分析师”,薪资4500。当时很开心,第一次赚钱,而且还赚这么多,于是乎我工作很卖力。在干了半个月左右的时间时,我发现这个小组纯属是公司的附属产品,没有什么核心价值。其实不怪公司不重视,组里的数据分析师连概率论都没搞清楚,更别说数据挖掘和编程了。每天那就是折腾折腾EXCEL,写写报告,十足的一个“表哥”。对于我这样的技术控,一个会编程的数据分析师,这是完全不能忍受的。而且当时自己开始搜索职位的时候,发现我掌握的技能远远不止4500块这么便宜!于是乎想着离职,目标锁定在上海的互联网公司。
在这期间,我研读的是《Data Mining:concepts and techniques》 里面的关于assocation analysis 的章节。还有第一次学习了一点关于Python的语法。那个时候我还沉迷在SAS的世界里不能自拔,总觉得除了SAS,万般皆下品!!
接下来就是顺利跳槽上海,这半年也是我进步最快,学的最多的半年
我的数据挖掘学习得益于三大利器:google,MOOC,知乎
先简单说说入职后的事情。我刚加入部门的时候,小组只有四个人(算上我),我惊讶的发现大家还在用excel进行分析。
我在做第一个项目的时候,使用了我最擅长的SAS配上logistic regression,并且在会议室里展示了我使用SAS的效果。那是第一次我在真实的项目中使用一个机器学习模型去解决问题,虽然解决的很烂。 大家对于我当时演示的“黑魔法”表示很好奇(很牛逼),我足足解释了一个多小时~~
在那以后组里的同事开始接触R和PYTHON,我也是在那个时候第一次学习PYTHON,然后便是一发不可收拾。。
SAS这样的软件太过于昂贵,而且体积大,动辄10个G的空间,其语法格式也较为奇怪。如果整个模型脱离SAS环境,那么将会毫无意义。 我仔细搜查了国内各大公司的工具使用情况(主要是招聘网站o(╯□╰)o),结合自己以后会在互联网发展的职业规划,果断抛弃SAS,投入到R和PYTHON的怀抱中!
得益于这两门开源语言,我的工作进行的如鱼得水,工作效率奇高! 我会尽力将自己的全部工作都写成脚本,每天能够自动运行,然后省出来的时间用来学习新知识。感谢我的老东家,给我提供了一个轻松而又自由的环境,没有打压我学习的动力,这一点是我最赞赏东家的!
后期就是开始配合同事进行一些自动化工作的开展,同时陆续的投入几个机器学习模型。用我当时的领导话说:我们部门的数据分析工作已经在全公司领先(真不是我说的,是我领导说的)。
但是后期的工作越来越缺乏新意,每天都是重复的机械工作,加上领导不断的强调:数据分析师就是为产品经理服务的! 这一点让我非常的不爽,非常非常非常不爽!! 而且,我的工资竟然还没有产品经理高!!最后终于忍不住辞职滚蛋了!!
这半年我桌上的书籍由我半个身子高!
《利用PYTHON进行数据分析》
《数据挖掘导论》
《机器学习实战》
《多元统计学》
《R语言实战》
《R数据分析》
《R语言数据挖掘》
《机器学习》
《人工智能》
等等。。。。
虽然没有全部看完,但至少都摸过封面((*^__^*) )
那么再来说说前面提到的三大利器
GOOGLE
我当时买了某VPN(没多久王八蛋老板带着小姨子跑了,没退我钱),几乎没有上过baidu
Google的一系列服务像是给我打开了世界的另一扇大门。我几乎每天都会从google 上面搜索文献进行阅读,会去搜索最新的电子书籍用作参考。YouTube上有着众多的学习视频,我当时学习scrapy(Python的爬虫框架)就是在youtube上搞定的! 更为重要的是,每当我代码或者模型遇到问题时,Google 总是能第一时间帮我找到解决方案,这会让我更有耐心和时间去调试代码和模型。如果你尝试去百度进行搜索,你会发疯的! 我不是美分,但是google真的是要比百度强N倍!
我不得不推荐两个网站:quora和stackoverflow
MOOC
coursera和EDX是我最早接触的两个学习平台。 我听的第一门课是MIT的python,第二门是NG的machine learning,第三门是约翰学校的R语言课程,然后就是越来越多!
我不敢想象如果没有MOOC,我该如何去学习一门新知识。 MOOC给我这样的普通人提供了接触世界顶级课程的机会。 我的大部分机器学习技能全部来自于MOOC上的几门著名课程。
我非常的喜欢上MOOC,虽然很多人说它只能帮你入门,不过这依旧不能减少我对它的热情! 我最记忆犹新的是在学习伯克利大学的spark课程的时候,学习论坛里面非常活跃。你提一个问题,基本上几分钟后就会有人过来解答,而且老师和助教参与度非常的高。这种交流式的学习真的很锻炼人,也能深化你所学的知识。这导致有一阵子我没事就去论坛上闲逛,看各种问题和解答,甚至还拿个本子摘抄!
目前国内的网易,学堂在线,慕课网等都是非常优秀的资源。我也不断的在继续学习各种各样的课程。学的越多,你越会觉得自己无知,越会如饥似渴的追求知识!
知乎
严格意义上来说,知乎并没有在学习上给与我直接的帮助。但是它却从某个侧面给我进行一种提醒:你离大神还很远很远很远。。。。。。。。。。。。。。。。。。。。。。。。。。
知乎上聚集了很多机器学习的大牛,我会默默的关注他们,看他们分享的文章和书籍,看他们愉快的解答难题。我记忆犹新的是有一个叫“豆豆叶”的知乎er,他回答的核函数让我感觉到了重生!!
知乎也让我清醒的认识到什么叫智商上的差距!我时常幻想自己能够成为一名顶级的什么什么什么。。。。 现在想想还是算了,有些东西你越努力,越争取,你就会越清晰的发现:智商上的差距是无法弥补的!
既然做不到顶尖,那么就踏踏实实的做好自己力所能及的事情,不要去YY,不要去幻想一些不切实际的东西。
当然,更为重要的是知乎告诉我怎么去努力的生活和工作,怎么去努力的不甘平庸!虽然很多心灵鸡汤让人觉得厌烦,都是偶尔看看觉得还是挺能调味的!
在这家公司,我基本上是早上6点起床(睡不着),七点到公司。开始听MOOC到九点或者看书,然后花一个小时处理一下繁杂的业务,跑跑脚本。接下来就是看电子书或者逛论坛学习东西了。
晚上下班7点左右到家,基本上不会学习,我这人晚上没有学习效率。但是会早早的睡觉,然后第二天才能早起啊!
总之,在这半年我从以下几个方面武装了自己:
机器学习算法
PYTHON的深入
SPARK
数据库知识
scikit-learn的实战运用
互联网常规数据挖掘流程
hadoop的相关知识
但是也还有很多东西缺乏,比如说计算机原理,JAVA,算法的深层子的东西,分布式数据等等!! 这些会是我未来的学习计划。
这些知识为我打开了通往机器学习的另一扇大门,也开阔我在学习上的视野。认识到自己是多么的渺小,还有很多未知的领域等待着自己去发现和探索!
更为重要的是,凭着这半年的自学,我成功的跳槽到目前自己工作的公司。在新的公司里一切又是从头开始,因为我之前学的那些东西只能是进入目前公司的一个小门槛,是属于必备的基础技能。
关于我在新公司如何学习,如何顺利完成转正,我会在下一篇文章张再次讲述,我也会分享自己找工作和面试的心得,希望到时对大家有所帮助~