楼主: complicated
4880 2

[学习分享] [cousera数据科学]The Data Scientist’s Toolbox 第一课 [推广有奖]

  • 3关注
  • 18粉丝

已卖:10份资源

副教授

65%

还不是VIP/贵宾

-

威望
0
论坛币
6463 个
通用积分
3868.8149
学术水平
88 点
热心指数
86 点
信用等级
58 点
经验
21958 点
帖子
506
精华
0
在线时间
1425 小时
注册时间
2007-6-16
最后登录
2024-4-20

楼主
complicated 在职认证  发表于 2014-5-8 11:05:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
课程简介:这是cousera上面,Johns Hopkins大学的几位教授组织的数据科学系列课程的第一门,叫数据科学家的工具盒子,介绍R,github等等时下最前沿的数据科学相关工具。课程系列介绍参考
https://www.coursera.org/specialization/jhudatascience/1/overview

我的计划:每周上完课程,把学习笔记贴到这里分享,供大家讨论。如果能坚持完成,我将会获得一个专项认证,更重要的是能够系统的梳理一遍数据科学的相关内容,并且为大家提供工作学习上的参考。我一定要坚持!

关于老师
Brian Caffo
https://github.com/bcaffo

Jeff Leek
https://github.com/jtleek

Roger Peng(之前听过他讲R,讲的还不错,此公貌似亚裔,哪国的不知道)
https://github.com/rdpeng

第一个主要是OVERVIEW性质的

1.what do data scientists do? 我一直不理解数据科学家跟数据分析师的差别到底在哪,他们的解释是这样
Define the question  这个是分析师要做的
Define the ideal data set, 同上
Determine what data you can access  同上
Obtain the data 。。。
Clean the data 。。。
Exploratory data analysis 。。。
Statistical prediction/ modeling 。。。
Interpret results 。。。
Challenge results  
Synthesize/ write up results
Create reproducible code  这个好像一般分析师在做分析报告的时候没有,但是建模的时候一定会有
Distribute results to other people
整个看下来基本就是数据分析师干项目的流程嘛,跟SPSS的循序渐进数据挖掘指南是差不多

2.Drew Conway的数据科学家定义
Hacking skills + Math & Statistics + Substantive Expertise  三者交集就是数据科学家,
好玩的是,Hacking skills+ Substantive Expertise=danger zone!呵呵,数据科学家首先是个黑客是吗?

3.工具之一介绍了Rstudio,作为R最优秀的IDE之一(我非常想说没有之一,不过没有发言权)

4.工具之二,Github& Git,这个大家也知道吧,开源世界的新秀,版本控制和项目管理利器

5.如何有效的获得R相关的帮助,也就是发帖提问的时候要包含哪些信息
what steps will reproduce the problem?  在进行什么处理,数据处理?建模?。。。
what is the expected output?  期望得到的是啥,输出模型?数据处理结果?
what do you see instead? 实际得到的是啥,报错的提示是什么
what version of the product( packages,etc) are you using? 用的是什么版本的R,什么包
what operating system?  操作系统环境,WIN,LINUX,32/64位等等

6.提问的标题,好的和坏的,这个挺有意思
Bad: Help! can't fit liner model!
        Help! Don't understand PCA!
第一个,这样显得太懒了,人家想帮你也要再问好几个问题才能知道究竟问题出在哪儿;
第二个,这么大一个问题丢出来没人理的吧,这个要自己啃书,细节不懂的再拿出来问

Better: R 2.15.0 lm() function produces seg fault with large data frame, Mac OS X 10.6.4
           Applied principal component analysis to a matrix - what are U, D, and VT ?
嗯,诚意多了

Even better: R 2.15.0 lm() function on Mac OS X 10.6.3 --seg fault on large data frame
                    Using principal components to discover common variation in rows of a matrix, should I use D or U or Vt?


7.R编程课程概览data types
subsetting
reading and writing data
control structures
functions
scoping
vectorized operations
dates and times
debugging
simulation
optimization

8.获取数据和数据清洗课程概览
Raw vs tidy data
downloading files
reading data
merging data
reshaping data
summarizing data
finding and replacing
data resources

9.探索性分析概览
principles of analytic graphics
exploratory graphs
plotting systems in R : base, lattice, ggplot2
hierarchical clustering
K-means clustering
Dimension reduction

10.可重复研究概览——这一块就不咋明白了,knitr之类的???
structure of a data analysis
organizing a data analysis
markdown
latex
R markdown
Evidence-based data analysis
RPubs

11.推断统计概览教科书上那些东西,好像实际用到的不多

12.回归概览线性、多元、残差检验之类的略

13.机器学习实践课程概览
types of erros
cross validation
the caret package 只会用这个做特征选择
plotting for prediction
proprocessing
predicting with regression
predicting with trees
boosting
bagging
model blending
forecasting

14.建立数据产品概览——这个颇有意思
R包: devtools, roxygen, testthat
rCharts
Slidify
Shiny

嗯,整体来说,作为R数据分析师在江湖上闯荡的基本功底应该是差不多了的
从数据的清洗整理加工,到可视化展示,到探索数据,到建模,最后产品化。能把这一套玩熟悉了,去阿里做个P6是足够了吧


下一周的内容应该是讲git和github,这块儿以前摸过几个月,应该还比较轻松~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Scientist toolbox couse SCIE 数据科学 科学家 大学 计划 课程 认证

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
jmpamao + 1 + 1 + 1 赞一个

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

密码被盗??

沙发
唐伯小猫 发表于 2014-5-8 14:25:52
顶一下原创啊,非常好的!谢谢啦!
心若向阳,无畏悲伤。

藤椅
complicated 在职认证  发表于 2014-5-8 14:46:52
唐伯小猫 发表于 2014-5-8 14:25
顶一下原创啊,非常好的!谢谢啦!
谢谢捧场啊~忘了@你了,呵呵
密码被盗??

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 21:30