楼主: 大家开心
13812 112

[书籍介绍] Exploratory Data Analysis with R   [推广有奖]

泰斗

25%

还不是VIP/贵宾

-

TA的文库  其他...

大家开心文库

威望
9
论坛币
1025394 个
通用积分
583.2170
学术水平
3617 点
热心指数
3599 点
信用等级
3043 点
经验
604032 点
帖子
1851
精华
204
在线时间
1998 小时
注册时间
2013-10-3
最后登录
2024-4-23

初级学术勋章 初级热心勋章 中级学术勋章 中级热心勋章 初级信用勋章 高级学术勋章 高级热心勋章 中级信用勋章 特级学术勋章 高级信用勋章 特级信用勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
This book covers some of the basics of visualizing data in R and summarizing highdimensional data with statistical multivariate analysis techniques. There is less of an emphasis on formal statistical inference methods, as inference is typically not the focus of EDA. Rather, the goal is to show the data, summarize the evidence and identify
interesting patterns while eliminating ideas that likely won’t pan out.
Throughout the book, we will focus on the R statistical programming language. We
will cover the various plotting systems in R and how to use them effectively. We will
also discuss how to implement dimension reduction techniques like clustering and the
singular value decomposition. All of these techniques will help you to visualize your data
and to help you make key decisions in any data analysis.

Table of contents :
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Getting Started with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Getting started with the R interface . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Managing Data Frames with the dplyr package . . . . . . . . . . . . . . . . . . . . . 4
Data Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
The dplyr Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
dplyr Grammar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Installing the dplyr package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
select() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
filter() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
arrange() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
rename() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
mutate() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
group_by() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
%>% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Exploratory Data Analysis Checklist . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Formulate your question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Read in your data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Check the packaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Run str() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Look at the top and the bottom of your data . . . . . . . . . . . . . . . . . . . . . . 21
Check your “n”s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Validate with at least one external data source . . . . . . . . . . . . . . . . . . . . . 25
Try the easy solution first . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Challenge your solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Follow up questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Principles of Analytic Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Show comparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Show causality, mechanism, explanation, systematic structure . . . . . . . . . . . 35
Show multivariate data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Integrate evidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Describe and document the evidence . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Content, Content, Content . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Exploratory Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Characteristics of exploratory graphs . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Air Pollution in the United States . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Getting the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Simple Summaries: One Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Five Number Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Overlaying Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Barplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Simple Summaries: Two Dimensions and Beyond . . . . . . . . . . . . . . . . . . . 52
Multiple Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Multiple Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Scatterplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Scatterplot - Using Color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Multiple Scatterplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Plotting Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
The Base Plotting System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
The Lattice System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
The ggplot2 System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Graphics Devices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
The Process of Making a Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
How Does a Plot Get Created? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Graphics File Devices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Multiple Open Graphics Devices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Copying Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
The Base Plotting System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Base Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Simple Base Graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Some Important Base Graphics Parameters . . . . . . . . . . . . . . . . . . . . . . 73
Base Plotting Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Base Plot with Regression Line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Multiple Base Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
The ggplot2 Plotting System: Part 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
The Basics: qplot() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Before You Start: Label Your Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
ggplot2 “Hello, world!” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Modifying aesthetics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Adding a geom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Facets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Case Study: MAACS Cohort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Summary of qplot() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
The ggplot2 Plotting System: Part 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Basic Components of a ggplot2 Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Example: BMI, PM$$_{2.5}$$, Asthma . . . . . . . . . . . . . . . . . . . . . . . . . 98
Building Up in Layers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
First Plot with Point Layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Adding More Layers: Smooth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Adding More Layers: Facets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Modifying Geom Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Modifying Labels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Customizing the Smooth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Changing the Theme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
More Complex Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A Quick Aside about Axis Limits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Data Analysis Case Study: Changes in Fine Particle Air Pollution in the U.S. . . 110
Synopsis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Loading and Processing the Raw Data . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
bec43d6ab56df3031698835bf41e82e6-g.jpg

本帖隐藏的内容

Roger D Peng-Exploratory Data Analysis with R-Leanpub (2015).pdf (971.92 KB, 需要: 3 个论坛币)




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Exploratory Analysis Analysi Analys alysis techniques summarize emphasis evidence methods

已有 5 人评分经验 论坛币 热心指数 收起 理由
oliyiyi + 100 精彩帖子
happy_287422301 + 100 精彩帖子
李会超 + 40 + 40 奖励积极上传好的资料
dxystata + 20 + 50 + 2 精彩帖子
statax + 60 + 3 奖励积极上传好的资料

总评分: 经验 + 160  论坛币 + 250  热心指数 + 5   查看全部评分

本帖被以下文库推荐

沙发
q41563201 发表于 2015-6-29 11:57:41 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
nkunku 发表于 2015-6-29 12:01:43 |只看作者 |坛友微信交流群
Exploratory Data Analysis with R

使用道具

板凳
qingxunz 发表于 2015-6-29 12:26:12 |只看作者 |坛友微信交流群
ddddddddddddddddddddd

使用道具

报纸
lhf8059 发表于 2015-6-29 13:06:33 |只看作者 |坛友微信交流群
看看!

使用道具

地板
li_mao 发表于 2015-6-29 13:07:14 |只看作者 |坛友微信交流群
看看

使用道具

7
vegebeef 发表于 2015-6-29 13:25:04 |只看作者 |坛友微信交流群
thanks!

使用道具

8
fjrong 在职认证  发表于 2015-6-29 14:34:53 |只看作者 |坛友微信交流群

使用道具

9
longitudinal 发表于 2015-6-29 14:46:54 |只看作者 |坛友微信交流群
不错的书籍

使用道具

10
rrjj101022 发表于 2015-6-29 14:47:36 |只看作者 |坛友微信交流群
谢谢分享~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 09:05