楼主: 资料狂人
35856 200

[程序分享] Nature:与R语言一起探索未知的世界   [推广有奖]

运营管理员

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
974857858 个
通用积分
41224.1133
学术水平
4617 点
热心指数
3402 点
信用等级
3620 点
经验
636840 点
帖子
9622
精华
140
在线时间
18209 小时
注册时间
2010-5-1
最后登录
2024-4-26

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
R语言这种目前非常流行的、免费的、图形化的统计学软件让科研人员能够自己完成数据的统计和分析工作。

       多年以来,遗传学家Helene Royo一直都使用商业化的计算机软件完成她的数据分析工作。她提取正在发育中的小鼠精子细胞的DNA进行试验分析,然后用一种名叫GeneSpring的软件对试验结果进行研究。“作为一名科学家,我希望对我正在开展的工作有一个全面的了解。但是这种软件分析满足不了我的需求,使用这种软件时我只能按按电脑键盘,最后得到一个结果而已。” Royo这样介绍道。Royo的主要工作是比较不同染色体的遗传活性(genetic activity),随着她的工作不断的深入,她逐渐意识到,商业化的计算机软件已经无法满足她在科研工作中对数据处理的需求了。
       在Royo刚刚开始做博后的时候,她拿到了份基因组测序试验的结果,当时她面临一个选择,将这些数据交给相关的专家进行分析,或者是自己学着去分析这些数据。她选择了后者,开始学习如何使用免费的开源统计软件R来进行数据分析。在Royo供职的瑞士Friedrich Miescher生物医学研究所(Friedrich Miescher Institute for Biomedical Research in Basel, Switzerland)里,R软件已经被用于常规的数据统计工作。但是Royo跟随的却是一个更大的潮流,很多学术科研机构都在尝试摆脱商业化的数据分析软件,而R软件就是一个很好的选择。
       R软件之所以如此受欢迎,除了因为它是免费软件之外,还有一个原因就是因为它能以不同的面目面对不同的使用者。首先,也是最重要的一点,需要用命令行形式进行输入的编程语言对于非程序员而言就是噩梦。但是R语言的初学者就可以越过这些复杂的编程步骤,使用预设的一套软件,这里面包含有各种统计分析命令和图形化的数据形式。这样一些预制的软件就在“黑匣子”般的商业化的软件与专业的程序员之间建起了一个中间地带。“R语言让一切都变得非常简单,能够满足我的所有需要。” Rojo评价道。
       实际上,这也正是R语言的开发者在20世纪90年代开发这套工具时的初衷和设计。新西兰奥克兰大学(University of Auckland in New Zealand)的统计学家Ross Ihaka和 Robert Gentleman对计算机非常感兴趣,但是他们找不到能够满足他们需要的软件。于是他们决定自己开发一套软件,完成数据分析和统计的工作。他们将这套工具命名为R语言,有一部分原因是因为他们俩名字的个字母都是“R”,另外一部分原因是因为当时有一套非常流行的编程语言名叫“S”,所以他们取名“R”。
       在互联网刚刚兴起的年代,R语言就迅速获得了全世界需要统计学软件,同时也愿意贡献自己想法的科学家的广泛关注。Ihaka和Gentleman决定向所有人免费开放R语言的源代码。很快,擅长写程序的科学家就利用R语言开发出了各种软件包和预设的程序,以满足各种不同的工作需要。据Gentleman介绍,他也可以为从事天文学研究的人写一套程序,但是如果是天文学家自己来写这套程序,那肯定会好用得多。

数学解决方案
       Karline Soetaert是荷兰皇家海洋研究所(Royal Netherlands Institute for Sea Research in Yerseke)的一名海洋学家,她在2008年时想到要对Scheldt河河口里的浮游生物(zooplankton)的健康状况做一番了解。Soetaert想要沿着Scheldt河测算一下这些浮游生物的死亡速度,但是当时还没有相应的R语言软件可供她使用。为了解决这个问题,她与另外两名生态学家使用R语言开发了deSolve软件,这也是款使用R语言编写的,能够解微分方程(differential equations)的软件。“其他的软件也可以解决这个问题,但是都非常贵,而且都不是开源软件。” Soetaert着重强调道。现在,deSolve软件已经被广泛使用,比如流行病学家在构建感染性疾病模型时,遗传学家在研究基因调控网络问题时,新药研发人员在了解药物的药代动力学问题时都会用到deSolve软件。
       2003年是R语言问世十周年的日子,当时科学家已经开发了200多款不同的R语言软件,而且也出现了批引用“R项目(R Project)”的文献。到今天为止,已经诞生了6000多个R语言软件包,可以用来解决各种各样、遍布各个科研领域的问题。其中有些软件,比如Bioconductor(参见go.nature.com/s7mq39)能够帮助科研人员对人类基因组与荷兰人基因组(Neanderthal genome)进行比对;有些软件,比如IPMpack(参见go.nature.com/cyhons)能够对种群增长(population growth)进行建模;有些软件,比如quantmod(参见go.nature.com/jxqasm)能够帮助科研人员预测产权价格(equity prices);还有些软件,比如ggplot2(参见ggplot2.org)能够帮助科研人员使用漂亮的图片将数据结果展示出来。专业人士还能够利用R语言,比如knitr(http://yihui.name/knitr)写出底稿,将原始的数据至于其中,供读者使用。去年在Elsevier出版社的Scopus数据库中,平均在每100篇专业文献当中就大约有1篇文献用到了R语言,或者R语言相关软件,在农业科学和环境科学相关文献中,这个比例会更高,详见附图“R语言的快速上涨趋势”。


       *可以在R的网站CRAN (Comprehensive R Archive Network)http://cran.r-project.org上安装R语言。这里提供了关于这个系统的介绍: go.nature.com/jh9jb8。
       *很多科研人员都建议使用功能强大的、免费的交互式软件RStudio,详见www.rstudio.com
       *有很多在线学习教程,比如DataCamp (go.nature.com/qndp6w), rOpenSci (ropensci.org), Software Carpentry (go.nature.com/wg3s9u)和R-bloggers (www.r-bloggers.com)。
       *到go.nature.com/zrhdkj网页上浏览本文的在线版,获取更多R语言软件包信息。

统计学威力
       对于很多使用者而言,R语言作为一种统计学软件是非常的。美国田纳西大学(University of Tennessee in Knoxville)的统计学家Robert Muenchen对各种统计学软件都做过分析,他认为,R语言在统计学方面的功力与SPSS或SAS这些专业化的统计学软件不相上下。近十年来,R语言不仅跟上了统计学软件市场的领头羊,甚至已经取代了它们的地位。据Muenchen介绍,R语言非常有可能在今年夏天的时候成为头号统计学软件。
       Bioconductor软件也是一款基于R语言开发的软件,主要应用于基因组学研究领域和分子生物学研究领域。Bioconductor软件能够帮助科研人员对海量的遗传序列数据进行处理和比较,对Gene Expression Omnibus等数据库进行检索,或者将数据上传到数据库当中等。该软件包含1000多个软件包,其中有一些软件还可以将数百万个由新一代DNA测序仪产出的DNA片段与已注释基因一一对应起来。
       在深入学习R语言的过程中,Royo也在Friedrich Miescher研究所生物信息学组的组长——Michael Stadler的指导下接受了强化训练。Royo花了大约半年来钻研R语言和Bioconductor软件。但是美国加利福尼亚州伯克利数据科学研究所(Berkeley Institute for Data Science in California)的生态学家,rOpenSci组织(该组织旨在帮助科研人员接受并使用R语言,促进R语言的发展)的创始人Karthik Ram认为,还有更多的学习机会。Ram等人会针对科研人员的问题免费教授R语言课程,没有任何编程技巧的人都可以学习。
       美国圣地亚哥州立大学(San Diego State University in California)的生态学家Megan Jennings就接受了Ram等人的培训。Jennings跟踪山猫(bobcats)、美洲狮(mountain lions)和其他野生动物,了解它们的运动情况。用了将近一年的时间,使用了36台摄像机,拍摄了40多万张照片,Jennings希望能够在一年的某一个时间跟踪某个动物的活动情况。一开始,Jennings决定用人工挑选照片,并且使用PRESENCE软件处理的方法来完成这项任务。后来在Ram的帮助下,Jennings自己写了一个R语言程序,能够自动识别带标记的照片,并将照片提纯,然后将特定的数据输送给另外一个R语言建模工具。“我以前要花一个小时才能完成的工作,现在只需要5分钟就搞定了。” Jennings介绍道。
       R语言的优势就是它的在线支持能力。据Muenchen介绍,在统计学论坛中,与R语言相关的问题在所有商业化的统计软件当中名列。
       “我们经常能够看到,有人在论坛上发出了一个提问贴,不到半个小时,相关软件的开发者就会出来回答这个问题。” Muenchen介绍道。这种快速反应能力就是从事基础科研工作的科学家最关注的。Royo还指出,她几乎能够在网上找到任何问题的答案。Royo现在基本上已经能够完成她所有的数据处理和分析工作,同时也给很多同事提供了大量的帮助。“不过我每天也都会在谷歌上寻找答案。” Royo说道。学习R语言不仅教会了Royo编程技巧,同时也让她能够对其他科学家的统计工作有更加深刻的认识。
      据Ram介绍,虽然并不是每一位科学家都热衷于学习R语言编程技巧,但是与Python等语言(更不要说Perl或C语言了)相比,R语言还是要容易多了。据Muenchen介绍,会有越来越多的科研人员乐于接受用户友好式的软件,而非学习一门编程语言。比如与Royo一样,遗传学家Rabih Murr在博后期间也学习了同一门R语言课程,但是他并没有花那么多的时间去好好做练习。Murr认为,学习R语言,并且能够用R语言解决相应的科学问题也需要下一番功夫,他表示,这是一个按照重要性先后排序的问题。但是自从Murr今年当上了瑞士日内瓦大学(University of Geneva in Switzerland)实验室主任之后,他也打算雇一个有过R语言开发经验的员工了。
与其他的技能一样,学习R语言编程也并非一日之功。但是Jennings认为投入产出比是非常高的。她说道:“这就好比投资,现在花一番功夫,就能够为日后的工作节省时间,而且还能够学到一门非常有用的新技能,能够解决我们科学家经常会碰到的各种问题。”

原文检索:Programming tools: Adventures with R

2021年7月24-28日机器学习及R应用集中短训现场班

授课方式:思想原理 + 数学精髓 + R经典案例


讲师介绍:

本课程由山东大学经济学院陈强教授亲授。陈强教授获得北京大学经济学学士、硕士,美国Northern Illinois University数学硕士、经济学博士,现为数量经济学博士生导师,在统计学、计量经济学及机器学习领域具有深厚的功底,2010年入选教育部新世纪优秀人才支持计划。陈强老师著有畅销研究生教材《高级计量经济学及Stata应用》(第2版,高教社,2014),并特别擅长深入浅出、直指人心地介绍数据分析原理,深受广大学生们的喜爱,其现场班常常人满为患、好评如潮。


开课信息:

时间:2021年7月24-28日(五天)

地点:北京市海淀区

费用:5200元/ 4500元(本科及硕士在读优惠价);食宿自理

安排:上午9:00-12:00;下午2:00-5:00;答疑

报名:http://www.peixun.net/main.php?mod=buy&cid=1436


培训目的和特色:

机器学习早期为人工智能的分支,后来也有不少统计学家加入,最近一、二十年因为其预测精度迅速提高而走红,并在业界有着广泛的应用。可以预见,在未来三十年,几乎所有行业都会因机器学习的深刻冲击而改变。MIT名誉校长Eric Grimson曾预言,机器学习会成为像Word一样的工具。而谁先掌握此工具,则可占得先机,成为时代的弄潮儿(至少不会落伍)。


基于机器学习的通用性,本次“机器学习及R应用”五天现场班将面向所有行业与学科的人士、老师与学生(包含经管社科、医学卫生等领域)。


本课程的最大特色在于“一站式服务”,从机器学习的原理、数学推导,到R语言命令与经典案例,无不精心设计、丝丝入扣,理论联系实操,让学员们迅速理解机器学习的精髓,并掌握最为流行的数据科学软件R语言操作。


陈强老师将从零开始,介绍R语言的精华,让你迅速上手!

Why R?
√ R是统计学家发明的专门用于统计计算的语言
√ R是统计学家的母语
√ R中的统计“包”(package)最多,且增长迅速
√ 统计学顶级期刊的新发表论文一般带有相应的R包
√ R是免费开源的,在学界与业界均有很多用户

培训内容目录:

1机器学习引论

(1) 什么是机器学习

(2) 机器学习的分类与术语

(3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶


2R语言快速入门

(1) Why R?

(2) 安装R与RStudio

(3) R的对象(vector, matrix, data frame,list)

(4) 面向对象的函数式语言

(5) R语言画图


3数学回顾

(1) 梯度向量
(2) 方向导数

(3) 梯度下降

(4) 向量微分

(5) 最优化


4线性回归

(1) OLS

(2) 过拟合与泛化能力

(3) 偏差与方差的权衡

(4) 交叉验证

(5) R案例:多项式回归的过拟合;波士顿房价


5逻辑 回归

(1) Logit

(2) 几率比

(3) 灵敏度与特异度

(4) ROC与AUC

(5) 科恩的kappa

(6) R案例:泰坦尼克号旅客的存活


6多项逻辑 回归

(1) 多项Logit

(2) R案例:识别玻璃类别


7判别分析

(1) 线性判别分析(LinearDiscriminant Analysis)

(2) 二次判别分析(QuadraticDiscriminant Analysis)

(3) 费雪判别分析(FisherDiscriminant Analysis)

(4) R案例:鸢尾花品种的归类


8朴素贝叶斯

(1) 朴素贝叶斯(Naive Bayes)

(2) 拉普拉斯修正(LaplacianCorrection)

(3) R案例:垃圾邮件的识别


9惩罚回归

(1) 高维回归的挑战

(2) 岭回归(Ridge Regression)

(3) 套索估计(Lasso)

(4) 弹性网估计(Elastic Net)

(5) R案例:前列腺癌的影响因素


10K近邻法

(1) 回归问题的K近邻法

(2) 分类问题的K近邻法

(3) R案例:摩托车撞击实验数据;模拟混合数据;威斯康辛乳腺癌的诊断


11决策树

(1) 分类树(Classification Tree)

(2) 分裂准则(错分率、基尼指数、信息熵)

(3) 成本复杂性修枝

(4) 回归树(Regression Tree)

(5) R案例:波士顿房价;葡萄牙银行市场营销


12随机森林

(1) 集成学习(Ensemble Learning)

(2) 装袋法(Bagging)

(3) 随机森林(Random Forest)

(4) 变量重要性(Variable Importance)

(5) 偏依赖图(Partial Dependence Plot)

(6) R案例:波士顿房价;声呐信号的分类


13提升法

(1) 自适应提升法 (AdaBoost)

(2) AdaBoost的统计解释

(3) 梯度提升法 (Gradient Boosting Machine)

(4) XGBoost

(5) R案例:波士顿房价;过滤垃圾邮件;识别玻璃类别


14支持向量机

(1) 最大间隔分类器(MaximalMargin Classifier)

(2) 软间隔分类器(Soft MarginClassifier)

(3) 支持向量机(Support Vector Machine)

(4) 核技巧(Kernel Trick)

(5) 支持向量回归(SupportVector Regression)

(6) R案例:模拟数据;过滤垃圾邮件;识别手写数字;波士顿房价


15人工神经网络

(1) 人工神经网络的思想

(2) 感知机(Perceptron)

(3)前馈神经网络(Feedforward Neural Network)

(4) 激活函数(Activation Function)

(5) 反向传播算法(Back-propagation Algorithm)

(6) 随机梯度下降(Stochastic Gradient Descent)

(7) 神经网络的过拟合与正则化

(8) 卷积神经网络(Convolution Neural Network)

(9) 深度学习的发展

(10) R案例:波士顿房价;声呐信号的分类;鸢尾花品种的分类


16非监督学习之主成分分析

(1) 总体中的主成分分析

(2) 样本中的主成分分析

(3) 方差分解与降维

(4) 主成分回归(PrincipalComponent Regression)

(5) R案例:左右耳听力;香港回归的经济效应


17非监督学习之聚类分析

(1) K-均值聚类(K-meansClustering)

(2) 分层聚类(Hierarchical Clustering)

(3) 树状图

(4) 基于相关系数的距离

(5) R案例:模拟数据;鸢尾花品种的归类


18数据科学的R语言

(1) 何为数据科学

(2) 管道算子(Pipe Operator)

(3) R包tidyverse(输入数据、数据清理、数据变换)

(4) R包ggplot2(高阶画图)

(5) R包caret(机器学习的统一接口)

(6) R案例:Rtidyverse的自带案例;威斯康辛乳腺癌的诊断


第19讲(Bonus Lecture)  机器学习在经管社科的应用

精读几篇在经管社科顶刊发表的经典机器学习论文


不难看出,本次课程可谓干货满满、奇货可居。更难得可贵的是,主讲老师陈强教授具有丰富的教学经验、激情与魅力,是广大计量学子心目中真正的“计量男神”,尤其擅长化繁为简、直指人心,让学员们迅速上手新知识与技能。


跟着陈强老师,五天入门机器学习,登堂入室,立竿见影,赶上时代的步伐!


优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

同一单位六人以上同时报名8折优惠;

以上优惠不叠加。


报名流程:
1:点击“http://www.peixun.net/main.php?mod=buy&cid=1436
”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:网上订单缴费(需要刷卡或对公转账的请报名后与我们联系);
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。


联系方式:

尹老师

电话: 010-53352991

QQ:  42884447

邮箱: yinna@pinggu.org

微信:yinyinan888

陈强老师Python机器学习2021年暑期班:2021年8月12-16日(五天)同步热招,详情请咨询尹老师↑

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Nature R语言 Bioconductor Data Science Differential 计算机软件 科研人员 科学家 染色体 统计学

已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
李会超 + 1 精彩帖子
xddlovejiao1314 + 100 + 1 + 1 + 1 精彩帖子
statax + 40 + 3 + 3 精彩帖子
oliyiyi + 100 精彩帖子

总评分: 经验 + 200  论坛币 + 40  学术水平 + 5  热心指数 + 4  信用等级 + 1   查看全部评分



沙发
weinamaleny 在职认证  发表于 2015-6-9 08:17:00 |只看作者 |坛友微信交流群

回帖奖励 +3

R语言在各个领域的应用和国际认知度不容小觑啊
已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

藤椅
我是女生 发表于 2015-6-9 08:17:48 |只看作者 |坛友微信交流群

回帖奖励 +3

国外的科研基本都用R了
看来以后国际化科研工作都离不开R了
已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

板凳
乔乔秋 发表于 2015-6-9 08:18:31 |只看作者 |坛友微信交流群

回帖奖励 +3

R语言数据挖掘

使用道具

报纸
油麦菜花 在职认证  发表于 2015-6-9 08:19:19 |只看作者 |坛友微信交流群

回帖奖励 +3

前几天刚看到好多R大牛在个人网站推荐这篇文章
不过之前一直看到的是英文版  哈哈哈哈

使用道具

地板
lisahulisa 发表于 2015-6-9 08:20:50 |只看作者 |坛友微信交流群

回帖奖励 +3

支持R  连Nature都公开表态了
已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

7
eaglestar 在职认证  发表于 2015-6-9 08:31:13 |只看作者 |坛友微信交流群

回帖奖励 +3

哈哈  这个是一定要顶的

使用道具

8
oliyiyi 发表于 2015-6-9 08:39:52 |只看作者 |坛友微信交流群

回帖奖励 +3

好棒的介绍啊

使用道具

9
sqy 发表于 2015-6-9 08:40:32 |只看作者 |坛友微信交流群

回帖奖励 +3

ding!!!!!!!!!

使用道具

10
ydb8848 发表于 2015-6-9 08:52:46 |只看作者 |坛友微信交流群

回帖奖励 +3

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 19:26