R 是一种编程语言,也是用于数据分析和统计的软件环境。它是一个GNU 项目,这意味着它是自由的开源软件。它正在以指数级的速度不断成长——普遍认为,它的用户人数可能超过了100 万,它有4000 多个由开发社区贡献的附件包,而且每年以约25% 的速度增加。在本书创作之时,它在Tiobe 编程社区指数(Tiobe Programming Community Index)的开发语言流行榜上已排至第24 位,大致与SAS 和MATLAB 看齐。
R 广泛地应用在每一个需要统计或数据分析的领域,涵盖了金融、市场营销、医药、基因组学、流行病学、社会科学、教学以及许多其他较小的领域。
关于本书
因为R 主要用于统计分析,所以很多关于R 的书都在指导你如何计算统计或模型数据集。然而,这些书忽视了数据分析应用的实际情况。事实上,除非你做的是尖端研究,否则你所用到的统计技术往往只需用于常规任务,而且你的模型可能也不大。完整的数据分析流程更像是这样:
(1) 取得一些数据;
(2) 清理数据;
(3) 探索和可视化数据;
(4) 数据建模并做出预测;
(5) 展示或发布你的结果。
当然,每个阶段都可能碰到一些有趣的问题,以至于你需要更多的数据,或者要以不同的方式处理现有数据,这会使你的工作倒退一步。工作流是可以迭代的,但每个步骤都不可或缺。
本书的第一部分会从头开始教你R——你不需要任何编程语言的经验。实际上,虽然完全没有编程经验也无妨,但有一些基本的编程知识会更好。例如,本书介绍了如何注释代码以及编写for 循环,但没有作更详细的解释。因此,如果你想要找本真正的编程入门课本,那么Jason R。 Briggs 写的Python for Kids 非常合适!
本书的第二部分将展示R 语言的完整数据分析流程,这里需要一些基本的统计知识。例如,你应该了解平均值和标准差等术语,以及什么是条形图(bar chart)。
本书最后将介绍R 的一些高级主题,例如面向对象编程和包的创建。Garrett Grolem 的Data Analysis with R 将会在本书的基础上深入探讨数据分析流程。
|