很多人都问过我这样一个问题: 作为一个文科生,你是怎么学习数据分析的?
这个问题其实很好回答,一是兴趣,二是需求。 我本科学的是市场营销,硕士学的时数据挖掘。其实我个人觉得,大数据时代下的市场营销越来越离不开数据分析。
以上都是废话! 下面是干货!
我讲数据分析分为四个主要部分和一个额外部分,请看下图:
这是我给所有新人第一次接触数据分析同学的建议。 任何一门知识的学习都是循序渐进,有由简入难。 下面是我针对每一个部分给出的详细书单。在给出书单前我(想说几句:
- 书籍大部分都是全英文版本的,只有少量趣味书籍是中文的(因为中文书籍优秀的真的不多)。 至于为什么要用全英文,我会在下面给出一些简单的说明
- 核心篇是最最最最最重要的,你可能需要看两遍,三遍,甚至四遍,五遍。。。在以后的中级或者高级学习中,你还需要不断的回顾核心篇内容!我本人至少看了有10遍,现在有时还是需要回到书本当中翻阅。
- 中级篇当初我首先推荐R。原因很多,我就只说一个:免费
下面请看书单:
核心篇
新手篇:
第一部分: SAS
第二部分: SPSS
第三部分: R
高级篇: 走到这里,实属不容易。原本我想继续推荐书籍,可是我发现当大家真的走到高级这一步的时候,其实已经不需要书籍的引导了。 虽然如此,我还是强烈推荐一本书:
又是WIELY 出品,质量不用怀疑。我可以担保,如果你真的能弄清楚这本书上的每一个模块,那么数据挖掘建模你基本上已经搞定了。
额外:这是针对网页分析的,我只推荐三本书: 作者Avinash Kaushik,请大家谷歌一下,然后看一下右面的介绍就OK。 文字形容这个家伙都是多余的,曾经来我们学校开讲座的时候,队伍是排到酒吧门口的(校园的酒吧)。
书籍就这么多。 当然,还有更多经典的书籍值得我们学习,但是每个人的时间是有限的。比如说R,我觉得这方面的资料和书籍你这辈子也看不完, 我推荐的R in action, 大家可以去看看评价(请记住: 我说的是英文)。 我觉得,学完知识最重要的还是要去不断的实践,不断的去思考。书看太多未必是好事,有时会迷失在一个理论里而走不出来,我当初学神经网络,差点把自己搞成神经病!!
番外篇: 上面所有的书籍我都有高清正版的PDF格式,本来是放在网盘共享的,可是被侵权删除了。 我也试过在某宝上卖过这些书,可是结果是“呵呵”。 很多书籍是我在英国购买或者专有账户下载的,中文书籍可能侵权,但是英文绝对没有侵权! 本来在欧洲,基本上主流教材都会有高清PDF格式供使用的。电子化书籍是一个大趋势,可是我们国内似乎还没有认识到这一点!
7月30 号修改
好多同学私信我让我发份电子稿给他们,由于本人目前还在英国,电子邮件发送太慢。我分享到了Dropbox 给大家免费下载。 当然,我也把这些书籍都给了我一个做数据分析培训的同学,大家也可以去购买(有些专业书,也是我自己当年花钱购买的)。 两种方式,大家自己随意选择。
8月8号修改
好奇怪,我这个答案只有十几个赞,可是给我私信要书的朋友至少有50多个。。这是为什么。
我分享到dropbox供大家免费下载了,可是很多朋友说下载出现问题,我也不知道怎么回事。
索性我就挂某个网站上卖了,也就几十块钱,邮箱给大家。 我想正在想学东西的人不会在乎这几十块钱吧。 挂上去卖,一方面,我承认,赚点小钱,可是我真的想告诉你,你买一份的钱都不够我在这边吃一顿午饭的,所以赚钱不是目的,我不缺钱,就是图个新鲜。 二,通过卖出去这种方式,也是监督自己希望能够尽量回答大家提出的问题,毕竟人家花钱了。 三,我觉得只要你花钱了,你才会稍微爱惜一点这些资料,很多人下载书不是看的,是用来屯的,好像书下载号之后你就懂了一样。如果您觉得这几十块不能够激起你惜书之情,请联系我,价格随便您抬,我很乐意!!!
2015年1月18号新增
今天增加三本书籍,主要是针对火的不行的两门开源语言:R和PYTHON
这本书也是我最近一直研读的书籍,作者是Pandas包的开发者,其对python的见解非常深厚。该书介绍了python中常用的几个数据分析包,学完这本书,基本上数据处理这一块你就能驾驭了!!
推荐指数:五星
可视化是数据分析的一门艺术,在R语言里有一个神一样的包叫做ggplot2,其以绘图简单,优美,灵活,简称信达雅而出名,这也是我现在还继续使用的R的最主要的原因。 而这本书是绝对是市面上最好的学习ggplot的教材,大量的实战案例,让你学的根本就停不下来。
推荐指数:四星
大头系列的书在国内已经很流行了,这本书我依旧继承了大头特色,简单,生动。缺点还是那句话,废话有点多。
推荐指数:三星