# R in Action: Chapter 5
#数学函数应用 abs(-3) #绝对值
sqrt(36) #求平方根
ceiling(3.78) #不小于x的最小整数
floor(4.39) #不大于x的最大整数
trunc(3.98) #向0方向截取的x中的整数,3
round(4.38267,digits=2) #将x舍入为指定位的小数
signif(34.2323,digits=2) #将x舍入指定的有效数字位数
log(x,base=n) #对x取n为底的对数
log(x) #x的自然对数
log10(x) #已10为底x的对数
exp(x) #指数函数
cos(2) sin(2) tan(2) acos(-0.23) asin(-0.32)#其他函数
quantile(x,c(.25,.5)) #分位数,如求25%及50%分位数
scale(x , center = TRUE , scale = TRUE ) #进行中心化(center= T)或标准化(scale= TRUE)#数据标准化
scale(x) #均值为0,标准差为1的标准化
scale(x)*SD+M #对制定均值M和标准差SD进行标准化
d=密度函数;p=分布函数;q=分位数函数;r=生成随机数(随机偏差)
dnorm(1.96)、pnorm(1.96) 、
qnorm(0.9, mean=500,sd=100) #分位点值
rnorm(50,mean=50,sd=10) #生成50个均值为50,方差为10的正态随机数
概率分布
#字符串处理函数
#计算字符数量 nchar
x<-c("ab","deew","James")
nchar(x)
nchar(x[2]) #提取或替换一个数值,和Excel mid函数差不多 substr
x<-"abcdefg"
substr(x,2,4)
substr(x,2,4)<-"22222"
str<-c("a","A","B","c")
grep("A",str,fixed=TRUE) #grep 在str中搜索“A”
sub("A","B",str,fixed=T) #sub,在str中搜索"A",用"B"代替
strsplit(x,split,fixed=T ) #在split处分割符号向量x中的元素
paste(......,sep="") #连接字符串
toupper(x) #大写转化
tolower(x) #小写转化
^[hc]?at #正则表达式。可匹配任意以0个或1个h或c开头、后接at的字符串。因此,此表达式可以匹配hat、cat和at,但不会匹配bat
length(x)
seq(from,to,by) seq(from,by,length)
rep(1:5,2)
pretty(x,n) #创建美观的分割点。通过选取n+1个等间距的取整值,将一个连续型变量x分割为n个区间。
\b #退格
\n #换行
\t #制表符
\' #单引号
cat(... , file = "myfile" , append = F) #连接...中的对象,会将每个对象都用空格分开
apply( x, margin=1 , fun) #1行,2列
#数据处理案例
options(digits=2)
student<-c("James Ha","Kevin Du","Ke Bi","San Jim",
"Tony Pake","Charlie Zhu","Mickey Allen","Tim Len",
"Phil huang","Eric shen")
math<-c(502,459,329,560,780,368,533,612,652,420)
science<-c(89,78,83,90,78,81,98,95,73,92)
english<-c(24,32,18,15,20,28,15,30,27,18)
class<-data.frame(student,math,science,english,stringsAsFactors=FALSE)
#数据标准化
z<-scale(class[,2:4])
#求行均值
score<-apply(z,1,mean)
#列合并
class<-cbind(class,score)
#综合得分百分数
y<-quantile(score,c(.8,.6,.4,.2))
#判断等级
class$grade[score>=y[1]]<-"A"
class$grade[score=y[2]]<-"B"
class$grade[score=y[3]]<-"C"
class$grade[score=y[4]]<-"D"
class$grade[score<-"E"
#字符分割名字
name<-strsplit((class$student)," ")
lastname<-sapply(name,"[",2)
#sapply()提取列表中每个成分的第一个元素,“[”是一个可以提取某个对象的一部分的函数
firstname<-sapply(name,"[",1)
class<-cbind(firstname,lastname,class[,-1])
#对lastname,firstname进行排序
class<-class[order(lastname,firstname),]
class
#循环和重复
for( i in 1:10) print("A") #for(var in -seq) statement for结构
i<-10; while (i>0) {print("A");i<-i-1} #while(cond) satement while 结构
if(cond) statement;
if(cond) statement1 else statement2
ifelse(cond,statement1,statement2)
switch(expr, ....) #根据一个表达式的值选择语句执行
feelings <- c("sad", "afraid")
for (i in feelings)
print(
switch(i,
happy = "I am glad you are happy",
afraid = "There is nothing to fear",
sad = "Cheer up",
angry = "Calm down now"
)
)
aggregate(mtcars, by=list(cyl,gear), FUN=mean, na.rm=TRUE) #对by中的变量进行fun整合,by必须是一个列表
melt(mydate,id=c("id","time")) #融合,保留id的变量,长结构
cast(md,formula,fun) #rowvar1+rowvar2+...~colvar1+colvar2+..前面确定各行内容,后面确定各列内容
# R in Action: Chapter 6
barplot(height, horiz = F , beside = F) #height是一个向量或一个矩阵
#若要绘制的类别型变量是一个因子或有序型因子,plot()就行
barplot(counts, main = "Treatment Outcome", horiz = TRUE,
cex.names = 0.8, names.arg = c("No Improvement",
"Some Improvement", "Marked Improvement"))
#names.arg= 允许指定一个字符向量作为条形的标签名
polygon(d, col = "red", border = "blue") #根据顶点x和y坐标绘制多边形
boxplot(mpg ~ cyl, data = mtcars)
boxplot(mpg ~ cyl, data = mtcars, notch = TRUE, varwidth = TRUE)
#notch=T 可以得到含槽的箱线图,若两个箱的槽互不重叠,则表明他们的中位数有显著差异
#varwidth=T 使箱线图的宽度与他们各自的样本大小成正比
#小提琴图(violin plot)是箱线图和核密度图的结合。使用vioplot包 vioplot(x1 , x2 , ...., names = , col = )。
#row.names()表示行的名字(一般在矩阵中)