请选择 进入手机版 | 继续访问电脑版
楼主: 爱上行
1484 0

[python专版] 如何利用Python成为数据分析师? [推广有奖]

  • 5关注
  • 2粉丝

本科生

60%

还不是VIP/贵宾

-

威望
0
论坛币
1124 个
通用积分
271.6251
学术水平
14 点
热心指数
17 点
信用等级
15 点
经验
3794 点
帖子
91
精华
0
在线时间
45 小时
注册时间
2014-7-5
最后登录
2021-1-5

爱上行 学生认证  发表于 2015-4-23 23:06:56 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1设置你的计算机

既然你已经下定了决心,是时候设置你的计算机了。最简单的方法是直接从Continuum.io下载Anaconda,它含有你Python生涯中需要的绝大多数好东东

https://store.continuum.io/cshop/anaconda/

这样做的主要缺点是,即便有一些底层包已经有更新版本的时候,你还是需要等待Continuum更新Anaconda中的包。如果你只是刚刚开始,那这一点就不算是个问题。如果在安装时遇到任何困难,你可以在下面这个网站找到在不同操作系统下安装的详细指引。

http://www.datarobot.com/blog/getting-up-and-running-with-python/

2学习基本知识

你应该从了解Python语言、库和数据结构的基础知识开始,这个来自Codecademy的教程是你开始学习的最佳选择之一。

http://www.codecademy.com/tracks/python

在学完这个教程后,你应该可以轻松地用Python写些小程序,并且对类和对象的含义也有了理解。

特别学习:Lists(列表),Tuples(元组),Dictionaries(字典),列表的内涵和字典的内涵。

完成作业:完成在HackerRank上的教程习题。这些作业应该能让你的大脑因Python燃烧

备用资源:如果交互式编程学习不适合你,你也可以看看这个Google上的Python课程。这个两天的课程,内容覆盖了随后会提到的一些内容。

https://developers.google.com/edu/python/

3学习正则表达式

你将会大量使用它来进行数据清洗,特别是在处理文本数据。学习正则表达式的最好方法是完成这个课程

https://developers.google.com/edu/python/regular-expressions

www.debuggex.com/cheatsheet/regex/python

完成婴儿取名练习

https://developers.google.com/edu/python/exercises/baby-names

如果想(gou)要(dan)更多的练习,请学习这个文本清理的课程。该课程将会在数据清理的不同步骤给你挑战。

http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/

4学习Python科学库

有趣之事,始于此处!这里,简要介绍不同的Python科学库——NumPy, SciPy,MatplotlibPandas。那么,让我们开始练习常用操作吧!

完整地练习NumPy操作课程,特别是NumPy的数组操作。这会建立一个好的基础,为将要面临的现实挑战做准备。

http://wiki.scipy.org/Tentative_NumPy_Tutorial

接下来,看看SciPy的课程。完整学习简介和基础知识部分,剩余部分可根据个人需要进行学习。

http://docs.scipy.org/doc/scipy/reference/tutorial/

如果你猜下一个是Matplotlib教程,那就错了!就我们目前的情况而言,它们太过全面了。事实上,把ipython笔记看到第68行(到animations)就基本可以了。

http://nbviewer.ipython.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb

最后,我们来看Pandas。它为Python提供了数据帧(DataFrame)的功能,类似于R语言。你也需要在这上面多花时间好好练习。对于所有中等规模的数据分析来说,Panda将会成为最有效的工具。从这个短小的10分钟入门开始,了解一下Pandas。然后,... ...

http://pandas.pydata.org/pandas-docs/stable/10min.html

然后,再看更详细的课程

http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/

其它资源:

如果你需要一本有关PandasNumPy的教材,推荐Wes McKinney著的《Python for Data Analysis

下面这个网站,还有很多的教程可作为Pandas的学习材料。

http://pandas.pydata.org/pandas-docs/stable/tutorials.html

完成来自哈佛大学CS109课程的作业。

http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb

5有效的数据可视化

学完这个来自CS109的课程,你可以跳过前面的两分钟,接来下的内容非常精彩!

http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264LargeTalkingHead-16x9.shtml

跟着课程完成下面课程作业

http://nbviewer.ipython.org/gith ... /homework/HW2.ipynb

6学习Scikit-learn和机器学习

现在,我们来到了整个过程的实质部分Scikit-learn是在Python中对机器学习最有用的库。

学完来自哈佛大学2014年的CS109课程中10讲到第18。你会全面了解机器学习,监督式学习算法(如回归、决策树、整体建模等)和非监督式学习算法(如聚类等)。切记,跟随每一讲,完成作业。

http://cs109.github.io/2014/pages/schedule.html

7练习,练习,再练习

祝贺你,你做到了!现在,你已经拥有所需要的全部技能,只差练习了。哪里会有比在Kaggle上练习更好呢?Kaggle与跟你一样的数据科学家一较高下。

http://www.kaggle.com/


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 数据分析师 数据分析 分析师 scikit-learn 分析师 如何

已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
路歌 + 20 + 100 + 3 + 3 + 1 精彩帖子

总评分: 经验 + 20  论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 1   查看全部评分

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 08:55