[Lecture Notes]Genevera Allen:Statistical Learning using R and Matlab - 第2页

11楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:21:05

%%%%%%%%%%%%%%
%lecture 11 code
%matlab script - svm exmaple
%primal form problems
cd ~/cvx
cvx_setup
cd ~/classes/stat640_2015/
%%%%%%%%%%%
%separable case - optimal separating hyperplanes
clf
var = 1.25;
n = 100; mu1 = [3; 8]; mu2 = [8; 3];
x1 = repmat(mu1',n/2,1) + randn(n/2,2)*sqrt(var);
x2 = repmat(mu2',n/2,1) + randn(n/2,2)*sqrt(var);
x = [x1; x2];
Y = [repmat(1,50,1); repmat(-1,50,1)];
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
hold off
cvx_begin
cvx_precision('high')
variable beta0;
variable beta(2);
minimize( .5*square_pos(norm(beta)));
subject to
Y.*(x*beta + beta0) >= 1;
cvx_end
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
xs = linspace(min(min(x)),max(max(x)),1000);
plot(xs,(-beta0 - xs*beta(1))/beta(2),'k')
M = 1/norm(beta);
plot(xs,(-beta0 - xs*beta(1)+1)/beta(2) ,'--k')
plot(xs,(-beta0 - xs*beta(1)-1)/beta(2),'--k')
hold off
%%%%%%%%%%%%%%
%non-seperable case - linear SVMs
clf
var = 2.8;
n = 100; mu1 = [3; 8]; mu2 = [8; 3];
x1 = repmat(mu1',n/2,1) + randn(n/2,2)*sqrt(var);
x2 = repmat(mu2',n/2,1) + randn(n/2,2)*sqrt(var);
x = [x1; x2];
Y = [repmat(1,50,1); repmat(-1,50,1)];
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
hold off
gam = 5;
cvx_begin
cvx_precision('high')
variable beta0;
variable beta(2);
variable epsilon(n);
minimize( .5*square_pos(norm(beta)) + gam*sum(epsilon));
subject to
for i=1:n
Y(i)*(x(i,:)*beta + beta0) >= 1 - epsilon(i);
end
epsilon >= 0;
cvx_end
clf
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
xs = linspace(min(min(x)),max(max(x)),1000);
plot(xs,(-beta0 - xs*beta(1))/beta(2),'k')
M = 1/norm(beta);
plot(xs,(-beta0 - xs*beta(1)+1)/beta(2) ,'--k')
plot(xs,(-beta0 - xs*beta(1)-1)/beta(2),'--k')
ind = epsilon>1e-6;
scatter(x(ind,1),x(ind,2),'+k','SizeData',150)
ind = abs(x*beta + beta0 + 1)<1e-4;
scatter(x(ind,1),x(ind,2),'Xk','SizeData',150)
ind = abs(x*beta + beta0 - 1)<1e-4;
scatter(x(ind,1),x(ind,2),'Xk','SizeData',150)
hold off
%%%%%%%%%%%%%%
%lecture 11 code
%matlab script - svm exmaple
%primal form problems
cd ~/cvx
cvx_setup
cd ~/classes/stat640_2014/
%%%%%%%%%%%%%%
%non-seperable case
clf
var = 2.8;
n = 100; mu1 = [3; 8]; mu2 = [8; 3];
x1 = repmat(mu1',n/2,1) + randn(n/2,2)*sqrt(var);
x2 = repmat(mu2',n/2,1) + randn(n/2,2)*sqrt(var);
x = [x1; x2];
Y = [repmat(1,50,1); repmat(-1,50,1)];
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
hold off
gam = .1;
cvx_begin
cvx_precision('high')
variable beta0;
variable beta(2);
variable epsilon(n);
minimize( .5*square_pos(norm(beta)) + gam*sum(epsilon));
subject to
for i=1:n
Y(i)*(x(i,:)*beta + beta0) >= 1 - epsilon(i);
end
epsilon >= 0;
cvx_end
clf
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
xs = linspace(min(min(x)),max(max(x)),1000);
plot(xs,(-beta0 - xs*beta(1))/beta(2),'k')
M = 1/norm(beta);
plot(xs,(-beta0 - xs*beta(1)+1)/beta(2) ,'--k')
plot(xs,(-beta0 - xs*beta(1)-1)/beta(2),'--k')
ind = epsilon>1e-6;
scatter(x(ind,1),x(ind,2),'+k','SizeData',150)
ind = abs(x*beta + beta0 + 1)<1e-4;
scatter(x(ind,1),x(ind,2),'Xk','SizeData',150)
ind = abs(x*beta + beta0 - 1)<1e-4;
scatter(x(ind,1),x(ind,2),'Xk','SizeData',150)
hold off
%%%%%%%%%%%%%%%%%%%%%
%zip code example
%pair-wise
zip1 = 3; zip2 = 8;
trdat = dlmread('zip.train');
ind = trdat(:,1)==zip1 | trdat(:,1)==zip2;
X = trdat(ind,2:end);
Y = trdat(ind,1);
[n,p] = size(X);
tsdat = dlmread('zip.test');
ind = tsdat(:,1)==zip1 | tsdat(:,1)==zip2;
Xs = tsdat(ind,2:end);
Ys = tsdat(ind,1);
C = .01;
fitsvm = svmtrain(X,Y,'boxconstraint',C);
class = svmclassify(fitsvm,X);
trerr = sum(class~=Y)/length(Y);
class = svmclassify(fitsvm,Xs);
tserr = sum(class~=Ys)/length(Ys);
[trerr tserr]
fitsvm
colormap(gray)
for i=1:9
subplot(3,3,i)
imagesc(flipud(rot90(reshape(fitsvm.SupportVectors(i,:),16,16))))
axis off
end
[classNB,errNB] = classify(Xs,X,Y,'diaglinear');
[classLDA,errLDA] = classify(Xs,X,Y,'linear');
[errNB errLDA tserr]

复制代码

12楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:25:31

%%%%%%%%%%%%%%%%%%%%%%
%lecture 12 code
%zip code data - 3's and 8's
zip1 = 3; zip2 = 8;
trdat = dlmread('zip.train');
ind = trdat(:,1)==zip1 | trdat(:,1)==zip2;
X = trdat(ind,2:end);
Y = trdat(ind,1);
[n,p] = size(X);
tsdat = dlmread('zip.test');
ind = tsdat(:,1)==zip1 | tsdat(:,1)==zip2;
Xs = tsdat(ind,2:end);
Ys = tsdat(ind,1);
%C-SVM - larger C gives a smaller margin (inversely propotional to gamma)
C = 1;
fitsvm = svmtrain(X,Y,'boxconstraint',C);
class = svmclassify(fitsvm,X);
trerr = sum(class~=Y)/length(Y);
class = svmclassify(fitsvm,Xs);
tserr = sum(class~=Ys)/length(Ys);
[trerr tserr]
fitsvm
%plot some of the support vectors
colormap(gray)
for i=1:9
subplot(3,3,i)
imagesc(-flipud(rot90(reshape(fitsvm.SupportVectors(i,:),16,16))))
axis off
end
%compare test error to other methods
[classNB,errNB] = classify(Xs,X,Y,'diaglinear');
tserrNB = sum(classNB~=Ys)/length(Ys);
[classLDA,errLDA] = classify(Xs,X,Y,'linear');
tserrLDA = sum(classLDA~=Ys)/length(Ys);
[tserrNB tserrLDA tserr]
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%non-linear 2-class SVM example
var = 1.25;
n = 100; mu1 = [0; 0]; cov1 = [1 .8; 1 .8];
x1 = repmat(mu1',n/2,1) + randn(n/2,2)*chol(cov1)*sqrt(var);
xs2 = repmat(mu1',n*100,1) + randn(n*100,2)*sqrt(var*3);
ind = sum((xs2.^2)')' > 5;
x2 = xs2(ind,:);
x2 = x2(1:(n/2),:);
x = [x1; x2];
Y = [repmat(1,50,1); repmat(-1,50,1)];
clf
hold on
scatter(x1(:,1),x1(:,2),'or','filled')
scatter(x2(:,1),x2(:,2),'ob','filled')
axis([min(min(x(:,1))) max(max(x(:,1))) min(min(x(:,2))) max(max(x(:,2)))]);
hold off
%linear kernel
C = 1;
svms = svmtrain(x,Y,'kernel_function','linear','showplot','true','method','QP','boxconstraint',C);
%radial kernel
sig = .5;
C = .1;
svms = svmtrain(x,Y,'kernel_function','rbf','showplot','true','method','QP','rbf_sigma',sig,'boxconstraint',C);
%polynomial kernel
d = 2;
C = 1;
svms = svmtrain(x,Y,'kernel_function','polynomial','showplot','true','method','QP','polyorder',d,'boxconstraint',C);
%%%%%%%%%%%%%%%%%%%%%%%
%non-linear regression example
n = 200; p = 1;
x = rand(n,1)*10;
y = sin(x)*4 + randn(n,1);
scatter(x,y,'filled')
%linear
betals = inv(x'*x)*x'*y;
hold on
scatter(x,y,'filled')
xs = linspace(0,10,500);
plot(xs,xs*betals,'k')
hold off
%polynomial
d = 2; lam = 5;
k = kern(x,[],ones(p,1),'poly1',d);
alpha = inv(k + lam*eye(n))*y;
clf
hold on
scatter(x,y,'filled')
xs = linspace(0,10,500);
kt = kern(x,xs',ones(p,1),'poly1',d);
plot(xs,kt*alpha,'b')
hold off
%gaussian
d = 1; lam = .01;
k = kern(x,[],ones(p,1),'gaussian',d);
alpha = inv(k + lam*eye(n))*y;
clf
hold on
scatter(x,y,'filled')
xs = linspace(0,10,500);
kt = kern(x,xs',ones(p,1),'gaussian',d);
plot(xs,kt*alpha,'b')
hold off

复制代码

13楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:26:46

##################
#lecture 14 code
require(glmnet)
require(Hmisc)
#model complexity & prediction error
n = 100
p = 50
Btrue = matrix(0,p,1)
Btrue[1:10] = rnorm(10)*1;
Xtr = scale(matrix(rnorm(n*p),n,p))
Ytr = Xtr%*%Btrue + matrix(rnorm(n),n,1)
Xts = scale(matrix(rnorm(n*p),n,p))
Yts = Xts%*%Btrue + matrix(rnorm(n),n,1)
fit = glmnet(x=Xtr,y=Ytr,family="gaussian",standardize=FALSE,nlambda=50,lambda.min.ratio=.001)
Yhtr = predict(fit,newx=Xtr)
MSEtr = apply((Yhtr-Ytr%*%matrix(1,1,length(fit$lambda)))^2,2,mean)
Yhts = predict(fit,newx=Xts)
MSEts = apply((Yhts-Yts%*%matrix(1,1,length(fit$lambda)))^2,2,mean)
plot(1:length(fit$lambda),MSEtr,type="l",col=4,xlab="Sparsity",ylab="Error")
lines(1:length(fit$lambda),MSEtr,col=4)
lines(1:length(fit$lambda),MSEts,col=2)
legend(30,5,legend=c("Training Error","Test Error"),col=c(4,2),lty=c(1,1),cex=.75)
t(t(fit$beta[,15]))
#Cross-Validation (by hand)
#Model Selection
fold = 5
sam = sample(1:n,n)
CVerrs = NULL
for(i in 1:fold)
{
ind = sam[((i-1)*n/fold + 1):(i*n/fold)]
Xin = Xtr[-ind,]; Yin = Ytr[-ind]
Xout = Xtr[ind,]; Yout = Ytr[ind]
fit = glmnet(x=Xin,y=Yin,family="gaussian",standardize=FALSE,nlambda=50,lambda.min.ratio=.001)
Yh = predict(fit,newx=Xout)
CVerrs = cbind(CVerrs,apply((Yh-Yout%*%matrix(1,1,length(fit$lambda)))^2,2,mean))
}
CVerr = apply(CVerrs,1,mean)
#minimum CV error rule
lines(1:length(fit$lambda),CVerr,col=1)
optlam = fit$lambda[which.min(CVerr)]
#one SE rule
SE = sqrt(apply(CVerrs,1,var)/fold)
errbar(1:length(fit$lambda),CVerr,CVerr+SE,CVerr-SE,add=TRUE)
minSE = CVerr[which.min(CVerr)]+SE[which.min(CVerr)]
minSEx = which(CVerr<minSE)[1]
optlam = fit$lambda[minSEx]
#refit to training data at optimal lambda
fit = glmnet(x=Xtr,y=Ytr,family="gaussian",standardize=FALSE,lambda=optlam)
Yhtr = predict(fit,newx=Xtr)
TRerr = mean( (Yhtr - Ytr)^2 )
Yhts = predict(fit,newx=Xts)
TSerr = mean( (Yhts - Yts)^2 )
optlam
sum(fit$beta!=0)
#why doesn't CV find the "true" model?
TRerr
TSerr

复制代码

14楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:28:13

#############
#lecture 16 - PCA
ncidat = read.table("ncidata.txt")
labs = read.table("ncilabels.txt")
colnames(ncidat) = t(labs)
dim(ncidat)
unique(colnames(ncidat))
#PCA - take SVD to get solution
#center genes, but don't scale
X = t(scale(t(ncidat),center=TRUE,scale=FALSE))
sv = svd(t(X));
U = sv$u
V = sv$v
D = sv$d
Z = t(X)%*%V;
#PC scatterplots
cols = as.numeric(as.factor(colnames(ncidat)))
K = 3
pclabs = c("PC1","PC2","PC3","PC4")
par(mfrow=c(1,K))
for(i in 1:K){
j = i+1
plot(U[,i],U[,j],type="n",xlab=pclabs[i],ylab=pclabs[j])
text(U[,i],U[,j],colnames(X),col=cols)
}
#PC loadings - visualize data by limiting to top genes in magnitude in the PC loadings
aa = grep("grey",colors())
bb = grep("green",colors())
cc = grep("red",colors())
gcol2 = colors()[c(aa[1:30],bb[1:20],rep(cc,2))]
j = 2
ord = order(abs(V[,j]),decreasing=TRUE)
x = as.matrix(X[ord[1:250],])
heatmap(x,col=gcol2)
#Variance Explained
varex = 0
cumvar = 0
denom = sum(D^2)
for(i in 1:64){
varex[i] = D[i]^2/denom
cumvar[i] = sum(D[1:i]^2)/denom
}
#screeplot
par(mfrow=c(1,2))
plot(1:64,varex,type="l",lwd=2,xlab="PC",ylab="% Variance Explained")
plot(1:64,cumvar,type="l",lwd=2,xlab="PC",ylab="Cummulative Variance Explained")
#######
#Sparse PCA
require("PMA")
spc = SPC(t(X),sumabsv=10,K=4)
#how many genes selected?
apply(spc$v!=0,2,sum)
#PC scatterplots
cols = as.numeric(as.factor(colnames(ncidat)))
K = 3
pclabs = c("SPC1","SPC2","SPC3","SPC4")
par(mfrow=c(1,K))
for(i in 1:K){
j = i+1
plot(spc$u[,i],spc$u[,j],type="n",xlab=pclabs[i],ylab=pclabs[j])
text(spc$u[,i],spc$u[,j],colnames(X),col=cols)
}
#SPC loadings - visualize data by limiting to gene selected by the sparse PC loadings
aa = grep("grey",colors())
bb = grep("green",colors())
cc = grep("red",colors())
gcol2 = colors()[c(aa[1:30],bb[1:20],rep(cc,2))]
j = 1
ind = which(spc$v[,j]!=0)
x = as.matrix(X[ind,])
heatmap(x,col=gcol2)
#variance explained
spc$prop.var.explained

复制代码

15楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:29:46

#######################
#lecutre 17 code
#comparing dimension reduction methods
load("UnsupL.Rdata")
imagedigit = function(vec){
mat = matrix(-vec[256:1],16,16)
mat = apply(mat,2,rev)
image(mat,col=gray((0:64)/64),xaxt="n",yaxt="n",ann=FALSE)
}
#pull out 3's
dat3 = digits[which(rownames(digits)==3),]
#visulaize
par(mfrow=c(3,4))
for(i in 1:12){
imagedigit(dat3[i,])
}
#PCA - take SVD to get solution
#don't center and scale to retain interpretation as images
svd3 = svd(dat3)
U = svd3$u
V = svd3$v #PC loadings
D = svd3$d
Z = dat3%*%V #PCs
#PC scatterplot
par(mfrow=c(1,1))
plot(Z[,2],Z[,3],pch=16)
#PC loadings
par(mfrow=c(1,4))
for(i in 1:4){
imagedigit(V[,i])
}
#Variance Explained
varex = 0
cumvar = 0
denom = sum(D^2)
for(i in 1:256){
varex[i] = D[i]^2/denom
cumvar[i] = sum(D[1:i]^2)/denom
}
#screeplot
par(mfrow=c(1,2))
plot(1:256,varex,type="l",lwd=2,xlab="PC",ylab="% Variance Explained")
plot(1:256,cumvar,type="l",lwd=2,xlab="PC",ylab="Cummulative Variance Explained")
cumvar[25] #first 25 PCs explain over 90% of variance
pdat3 = dat3%*%V[,1:25] #projected data - a tenth of the original size
#######
#now NMF
require("NMF")
K = 15
nmffit = nmf(dat3+1,rank=K)
W = basis(nmffit)
H = coef(nmffit)
#plot archetypes - try changing K
par(mfrow=c(3,5))
for(i in 1:K){
imagedigit(H[i,])
}
###########
#now ICA
require("fastICA")
K = 15
icafit = fastICA(t(dat3),n.comp=K)
#plot independent source signals - try changing K
par(mfrow=c(3,5))
for(i in 1:K){
imagedigit(icafit$S[,i])
}

复制代码

16楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:30:31

##################
#lecture 18 - K-means clustering
#simulate data
n = 300
mu1 = c(3,3); mu2 = c(7,4); mu3 = c(6,5.5);
Sig = matrix(c(1,.5,.5,1),2,2)
x1 = t(matrix(mu1,2,n/3)) + matrix(rnorm(n),n/3,2)
xx = matrix(rnorm(n*2/3),n/3,2)
x2 = t(matrix(mu2,2,n/3)) + xx%*%chol(Sig)
xx = matrix(rnorm(n*2/3),n/3,2)
x3 = t(matrix(mu3,2,n/3)) + xx%*%chol(Sig)
x = rbind(x1,x2,x3)
Y = c(rep(1,n/3),rep(2,n/3),rep(3,n/3))
y = factor(Y)
plot(x[,1],x[,2],col=as.numeric(y),pch=16)
#try changing k - which clustering looks best?
k = 3
km = kmeans(x,centers=k)
plot(x[,1],x[,2],col=km$cluster,pch=16)
cens = km$centers
points(cens[,1],cens[,2],col=1:k,pch=16,cex=3)
#code to understand K-means algorithm
require("animation")
mv.kmeans = function(x,k,cens=NULL){
n = nrow(x)
if(is.null(cens)){
cens = x[sample(1:n,k),]
}
plot(x[,1],x[,2],pch=16)
points(cens[,1],cens[,2],col=1:k,pch=16,cex=3)
thr = 1e-6; ind = 1; iter = 1;
while( ind>thr)
{
oldcen = cens
km = kmeans(x,centers=cens,iter.max=1,nstart=1,algorithm="MacQueen")
plot(x[,1],x[,2],col=km$cluster,pch=16)
points(cens[,1],cens[,2],col=1:k,pch=16,cex=3)
cens = km$centers
#print(cens)
plot(x[,1],x[,2],col=km$cluster,pch=16)
points(cens[,1],cens[,2],col=1:k,pch=16,cex=3)
ind = sum(diag((oldcen-cens)%*%t(oldcen-cens)))
#print(ind)
}
}
#watch K-means algorithm movie
#start from random starting points
saveHTML(mv.kmeans(x,3,cens=NULL),img.name="km2015")
############
#K-means for high-dimensional data
require("ISLR")
ncidat = t(NCI60$data)
colnames(ncidat) = NCI60$labs
dim(ncidat)
unique(colnames(ncidat))
K = 9
km = kmeans(t(ncidat),centers=K)
#how do we visualize K-means results?
#PCA - take SVD to get solution
#center genes, but don't scale
X = t(scale(t(ncidat),center=TRUE,scale=FALSE))
sv = svd(t(X));
U = sv$u
V = sv$v
D = sv$d
Z = t(X)%*%V;
plot(Z[,1],Z[,2],col=km$cluster,type="n")
text(Z[,1],Z[,2],colnames(ncidat),cex=.75,col=km$cluster)
cens = km$centers
points(cens%*%V[,1],cens%*%V[,2],col=1:K,pch=16,cex=3)
#Re-run and see if solution changes
K = 9
km = kmeans(t(ncidat),centers=K)
plot(Z[,1],Z[,2],col=km$cluster,type="n")
text(Z[,1],Z[,2],colnames(ncidat),cex=.75,col=km$cluster)
cens = km$centers
points(cens%*%V[,1],cens%*%V[,2],col=1:K,pch=16,cex=3)
#try different K
K = 5
km = kmeans(t(ncidat),centers=K)
plot(Z[,1],Z[,2],col=km$cluster,type="n")
text(Z[,1],Z[,2],colnames(ncidat),cex=.75,col=km$cluster)
cens = km$centers
points(cens%*%V[,1],cens%*%V[,2],col=1:K,pch=16,cex=3)

复制代码

17楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:30:59

#################
#lecture 19 code
#hierarchical clustering
require("ISLR")
ncidat = t(NCI60$data)
colnames(ncidat) = NCI60$labs
dim(ncidat)
unique(colnames(ncidat))
#complete linakge - Euclidean distance
cols = as.numeric(as.factor(colnames(ncidat)))
Dmat = dist(t(ncidat))
com.hclust = hclust(Dmat,method="complete")
plot(com.hclust,cex=.7,main="Complete Linkage")
#single linakge
dev.new()
sing.hclust = hclust(Dmat,method="single")
plot(sing.hclust,cex=.7,main="Single Linkage")
#average linakge
dev.new()
ave.hclust = hclust(Dmat,method="average")
plot(ave.hclust,cex=.7,main="Average Linkage")
#Ward's linakge
dev.new()
ward.hclust = hclust(Dmat,method="ward.D")
plot(ward.hclust,cex=.7,main="Ward's Linkage")
#complete linkage with different distances
dev.new()
Dmat = dist(t(ncidat),method="manhattan") #L1 distance
com.hclust = hclust(Dmat,method="complete")
plot(com.hclust,cex=.7,main="Complete Linkage - L1 Dist")
##########
#Biclustering - Cluster Heatmap
require("ISLR")
ncidat = t(NCI60$data)
colnames(ncidat) = NCI60$labs
#filter genes using PCA
X = t(scale(t(ncidat),center=TRUE,scale=FALSE))
sv = svd(t(X));
V = sv$v
#PC loadings - visualize data by limiting to top genes in magnitude in the PC loadings
aa = grep("grey",colors())
bb = grep("green",colors())
cc = grep("red",colors())
gcol2 = colors()[c(aa[1:30],bb[1:20],rep(cc,2))]
j = 2
ord = order(abs(V[,j]),decreasing=TRUE)
x = as.matrix(X[ord[1:250],])
#cluster heatmap - uses Ward's linkage (complete is default)
heatmap(x,col=gcol2,hclustfun=function(x)hclust(x,method="ward.D"))
######################################################

复制代码

18楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:32:01

##################
#lecture 20 code - graphical models
require("diagram")
require("glasso")
data = as.matrix(read.table("sachs_data.txt"))
labs = c("praf",
"pmek",
"plcg",
"PIP2",
"PIP3",
"p44/42",
"pakts473",
"PKA",
"PKC",
"P38",
"pjnk")
xc = scale(log(data-min(data)+1),center=TRUE,scale=FALSE)
n = nrow(data)
par(mfrow=c(2,3))
lams = c(.0001, .00025, .0005, .00075, .001, .0025)
for(i in 1:6){
gl = glasso(t(xc)%*%xc/n,rho=lams[i])
plotweb(gl$wi,legend=FALSE,length=0,names=labs,main=lams[i])
}

复制代码

19楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:32:58

###############
#lecture 22 - CART
#classification tree example
require(rpart)
#reading in data
data = read.csv("spam_dat.csv",header=FALSE)
ndat = read.delim("spam_vars.txt",header=FALSE)
#parsing variable names
nams = NULL
for(i in 1:nrow(ndat))
{
vec = strsplit(as.character(ndat[i,]),split="_")
for(j in 1:length(vec[[1]]))
{
if(length(grep(":",vec[[1]][j]))>0)
{
vars = strsplit(vec[[1]][j],split=":")
nams = c(nams,vars[[1]][1])
}
}
}
Y = data[,58]
n = length(Y)
sum(Y)/n
X = as.matrix(log(1 + data[,1:57]))
colnames(X) = nams
X = scale(X)/sqrt(n-1)
Yf = as.factor(Y)
levels(Yf) = c("not","spam")
dat = data.frame(Yf,X)
#high CP
ans = rpart(Yf~.,data=dat,method="class",xval=5,cp=.1)
plot(ans,margin=.05)
text(ans,use.n=TRUE)
summary(ans)
plotcp(ans)
nams[49:54]
#medium cp
ans = rpart(Yf~.,data=dat,method="class",xval=5,cp=.01)
plot(ans,margin=.05)
text(ans,use.n=TRUE)
summary(ans)
plotcp(ans)
#low cp
ans = rpart(Yf~.,data=dat,method="class",xval=5,cp=.005)
plot(ans,margin=.05)
text(ans,use.n=TRUE,cex=.75)
summary(ans)
plotcp(ans)
###############
#splitting data into training and testing
trind = sample(1:n,floor(n/2))
trdat = data.frame(Yf[trind],X[trind,])
names(trdat)[1] = "Yf"
tsdat = data.frame(Yf[-trind],X[-trind,])
names(tsdat)[1] = "Yf"
ans = rpart(Yf~.,data=tsdat,method="class",xval=5,cp=.005)
#trees
ans = rpart(Yf~.,data=trdat,method="class",xval=5,cp=.005)
trerr = sum(predict(ans,newdata=trdat,type="class")!=trdat$Yf)/nrow(trdat)
tserr = sum(predict(ans,newdata=tsdat,type="class")!=tsdat$Yf)/nrow(tsdat)
c(trerr, tserr)

复制代码

20楼

Lisrelchen(未真实交易用户) 发表于 2016-5-29 22:33:33

####################
#lecture 23 - boosting
require(rpart)
#reading in data
data = read.csv("spam_dat.csv",header=FALSE)
ndat = read.delim("spam_vars.txt",header=FALSE)
#parsing variable names
nams = NULL
for(i in 1:nrow(ndat))
{
vec = strsplit(as.character(ndat[i,]),split="_")
for(j in 1:length(vec[[1]]))
{
if(length(grep(":",vec[[1]][j]))>0)
{
vars = strsplit(vec[[1]][j],split=":")
nams = c(nams,vars[[1]][1])
}
}
}
Y = data[,58]
n = length(Y)
sum(Y)/n
X = as.matrix(log(1 + data[,1:57]))
colnames(X) = nams
X = scale(X)/sqrt(n-1)
ind = sample(1:nrow(X),floor(nrow(X)*.3))
xts = X[ind,]; xtr = X[-ind,]
yts = Y[ind]; ytr = Y[-ind]
trdat = data.frame(ytr,xtr)
tsdat = data.frame(yts,xts)
#trees
fit1 = rpart(ytr~.,data=trdat,method="class",xval=5,cp=.01)
trpred = apply(predict(fit1),1,which.max) - 1
tree.trerr = sum(abs(ytr - trpred))/length(ytr)
tspred = apply(predict(fit1,newdata=data.frame(xts)),1,which.max) - 1
tree.tserr = sum(abs(yts - tspred))/length(yts)
tree.err = c(tree.trerr, tree.tserr)
tree.err
#logistic regression
fit2 = glm(ytr~.,data=trdat,family="binomial")
trpred = (sign(predict(fit2)) + 1)/2
logit.trerr = sum(abs(ytr - trpred))/length(ytr)
tspred = (sign(predict(fit2,newdata=data.frame(xts))) + 1)/2
logit.tserr = sum(abs(yts - tspred))/length(yts)
logit.err = c(logit.trerr, logit.tserr)
logit.err
#######boosting
require(ada)
#adaboost
fit3 = ada(x=xtr,y=ytr,loss="exponential",type="discrete",iter=150)
ab.trerr = (fit3$confusion[2,1] + fit3$confusion[1,2])/length(ytr)
plot(fit3)
tspred = round(predict(fit3,newdata=data.frame(xts),type="probs"))
ab.tserr = sum(abs(yts - (apply(tspred,1,which.max)-1)))/length(yts)
ab.err = c(ab.trerr, ab.tserr)
ab.err
#logitboost
fit4 = ada(x=xtr,y=ytr,loss="logistic",type="real",iter=150)
lb.trerr = (fit4$confusion[2,1] + fit4$confusion[1,2])/length(ytr)
plot(fit4)
tspred = round(predict(fit4,newdata=data.frame(xts),type="probs"))
lb.tserr = sum(abs(yts - (apply(tspred,1,which.max)-1)))/length(yts)
lb.err = c(lb.trerr, lb.tserr)
lb.err
errmat = cbind(tree.err,logit.err,ab.err,lb.err)
errmat

复制代码

[Lecture Notes]Genevera Allen:Statistical Learning using R and Matlab [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群