人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › winbugs及其他软件专版 › [Lecture Notes]Genevera Allen:Statistical Learning u ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 5 下一页

发帖

楼主: Lisrelchen

4501 41

[Lecture Notes]Genevera Allen:Statistical Learning using R and Matlab [推广有奖]

0关注
62粉丝

VIP

院士

67%

还不是VIP/贵宾

TA的文库 其他...

Bayesian NewOccidental

Spatial Data Analysis

东西方数据挖掘

威望: 0 级
论坛币: 49957 个
通用积分: 79.5487
学术水平: 253 点
热心指数: 300 点
信用等级: 208 点
经验: 41518 点
帖子: 3256
精华: 14
在线时间: 766 小时
注册时间: 2006-5-4
最后登录: 2022-11-6

楼主

Lisrelchen 发表于 2016-5-29 22:00:08 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2016-5-29 21:57:02 上传
下载附件 (5.98 MB)

Course Description
This course is a survey of statistical learning methods and will cover major techniques and concepts for both supervised and unsupervised learning. Topics covered include penalized regression and classification, support vector machines, kernel methods, model selection, matrix factorizations, graphical models, clustering, boosting, random forests, and ensemble learning. Students will learn how and when to apply statistical learning techniques, their comparative strengths and weaknesses, and how to critically evaluate the performance of learning algorithms. Students completing this course should be able to

(i) apply basic statistical learning methods to build predictive models or perform exploratory analysis,
(ii) properly tune and select statistical learning models,
(iii) correctly assess model fit and error, and
(iv) build an ensemble of learning algorithms.

本帖隐藏的内容

Genevera Allen Machine Learning Rice University.zip (4.45 MB, 需要: 1 个论坛币)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏3 回帖

关键词：Statistical statistica statistic Learning earning techniques machines learning concepts include

本帖被以下文库推荐

· 日新文库：R入门及进阶|主题: 616, 订阅: 212
· 东西方数据挖掘|主题: 1798, 订阅: 171

使用道具举报

沙发

Lisrelchen 发表于 2016-5-29 22:02:34 |只看作者 |坛友微信交流群

#########################
#lecture 2 code
#ozone data
#load in ozone data (taken from "cosso" R package)
ozone = read.csv("ozone.csv")
#take a look at the data
plot(ozone,pch=16,cex=.5)
#directly fit least squares
Y = as.numeric(ozone[,1])
aX = cbind(rep(1,nrow(ozone)),as.matrix(ozone[,-1]))
#estimated coefficients
betahat = solve(t(aX)%*%aX)%*%t(aX)%*%Y
#fitted data
Yhat = aX%*%betahat
#hat matrix
H = aX%*%solve(t(aX)%*%aX)%*%t(aX)
evH = eigen(H)
evH$values[1:10]
#fit linear model using "lm"
fit = lm(ozone~.,data=ozone)
summary(fit)
cbind(betahat,t(t(fit$coefficients)))
#diagnostic plots
layout(matrix(c(1,2,3,4),2,2))
plot(fit)
dev.off()

复制代码

使用道具举报

藤椅

Lisrelchen 发表于 2016-5-29 22:03:36 |只看作者 |坛友微信交流群

###########################
#lecture 3 code
#ozone data
#load in ozone data (taken from "cosso" R package)
ozone = read.csv("ozone.csv")
#take a look at the data
plot(ozone,pch=16,cex=.5)
#ridge regression
Y = as.numeric(ozone[,1]); Y = Y - mean(Y)
X = as.matrix(ozone[,-1]); X = scale(X,center=T,scale=F)
#ridge regression solution
lam = nrow(ozone)
betals = solve(t(X)%*%X)%*%t(X)%*%Y
betar = solve(t(X)%*%X + diag(rep(lam,8)))%*%t(X)%*%Y
cbind(betals,betar)
#ridge regression coefficient paths
lambdas = exp(seq(log(.01),log(10*nrow(ozone)),l=100))
betasr = matrix(0,length(lambdas),8)
for(i in 1:length(lambdas))
{
betasr[i,] = solve(t(X)%*%X + diag(rep(lambdas[i],8)))%*%t(X)%*%Y
}
plot(c(1,length(lambdas)),range(betasr),type="n",ylab="Coefficients",xlab="Lambda Index")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9))
################################
#looking at principal components
svdx = svd(X)
#scatterplots of samples PCs
par(mar=c(1,1,1,1))
layout(matrix(1:25,5,5))
mycols = rainbow(length(Y))
orY = order(Y)
for(i in 1:5)
{
for(j in 1:5)
{
plot(svdx$u[,i],svdx$u[,j],type="p",pch=16,col=mycols[orY])
}
}
#amount of variance explained
varex = 0; cumvarex = 0;
for(i in 1:8)
{
varex[i] = svdx$d[i]/sum(svdx$d)
cumvarex[i] = sum(varex)
}
par(mfrow=c(1,2))
par(mar=c(5,4,4,2))
barplot(varex,ylab="Amount of Var Explained",xlab="PCs")
barplot(cumvarex,ylab="Cummulative Var Explained",xlab="PCs")
#PC direction weights
par(mfrow=c(3,2))
par(mar=c(5,4,3,2))
for(i in 1:6)
{
barplot(svdx$v[,i],names.arg=names(ozone)[2:9])
}
#ridge paths again
dev.off()
plot(c(1,length(lambdas)),range(betasr),type="n",ylab="Coefficients",xlab="Lambda Index")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9))
#####################
#least squares on derived inputs
#PC regression
betapcr = diag(svdx$d)%*%t(svdx$u)%*%Y
#PLS regression
plsfunc = function(x,y)
{
p = ncol(x); n = nrow(x);
M = t(x)%*%y
Z = NULL; V = NULL; P = NULL;
for(k in 1:p)
{
svdm = svd(M)
z = x%*%svdm$u
z = z*as.numeric(1/sqrt(t(z)%*%z))
V = cbind(V,svdm$u)
p = t(x)%*%z/as.numeric(t(z)%*%z)
P = cbind(P,p);
Z = cbind(Z,z);
M = M - P%*%solve(t(P)%*%P)%*%t(P)%*%M;
}
return(list(Z=Z,V=V))
}
plsx = plsfunc(X,Y)
#scatterplots of pls components
par(mar=c(1,1,1,1))
layout(matrix(1:25,5,5))
mycols = rainbow(length(Y))
orY = order(Y)
for(i in 1:5)
{
for(j in 1:5)
{
plot(plsx$Z[,i],plsx$Z[,j],type="p",pch=16,col=mycols[orY])
}
}
betapls = t(plsx$Z)%*%Y
cbind(betapcr,betapls)

复制代码

使用道具举报

板凳

Lisrelchen 发表于 2016-5-29 22:04:37 |只看作者 |坛友微信交流群

###########################
#lecture 4 code
#ozone data
#ridge regression, PCA, PC regression & PLS regression
#load in ozone data (taken from "cosso" R package)
ozone = read.csv("ozone.csv")
#take a look at the data
plot(ozone,pch=16,cex=.5)
##################
#ridge regression
Y = as.numeric(ozone[,1]); Y = Y - mean(Y)
X = as.matrix(ozone[,-1]); X = scale(X,center=T,scale=F)
#ridge regression solution
lam = nrow(ozone)*.1
betals = solve(t(X)%*%X)%*%t(X)%*%Y
betar = solve(t(X)%*%X + diag(rep(lam,8)))%*%t(X)%*%Y
cbind(betals,betar)
#ridge regression coefficient paths
lambdas = exp(seq(log(.01),log(10*nrow(ozone)),l=100))
betasr = matrix(0,length(lambdas),8)
for(i in 1:length(lambdas))
{
betasr[i,] = solve(t(X)%*%X + diag(rep(lambdas[i],8)))%*%t(X)%*%Y
}
plot(c(1,length(lambdas)),range(betasr),type="n",ylab="Coefficients",xlab="Lambda Index")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9))
################################
#looking at principal components
svdx = svd(X)
#scatterplots of samples PCs
par(mar=c(1,1,1,1))
layout(matrix(1:25,5,5))
mycols = rainbow(length(Y))
orY = order(Y)
for(i in 1:5)
{
for(j in 1:5)
{
plot(svdx$u[,i],svdx$u[,j],type="p",pch=16,col=mycols[orY])
}
}
#amount of variance explained
varex = 0; cumvarex = 0;
for(i in 1:8)
{
varex[i] = svdx$d[i]/sum(svdx$d)
cumvarex[i] = sum(varex)
}
par(mfrow=c(1,2))
par(mar=c(5,4,4,2))
barplot(varex,ylab="Amount of Var Explained",xlab="PCs")
barplot(cumvarex,ylab="Cummulative Var Explained",xlab="PCs")
#PC direction weights
par(mfrow=c(3,2))
par(mar=c(5,4,3,2))
for(i in 1:6)
{
barplot(svdx$v[,i],names.arg=names(ozone)[2:9])
}
#ridge paths again
dev.off()
plot(c(1,length(lambdas)),range(betasr),type="n",ylab="Coefficients",xlab="Lambda Index")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9))
#####################
#least squares on derived inputs
#PC regression
betapcr = diag(svdx$d)%*%t(svdx$u)%*%Y
#PLS regression
plsfunc = function(x,y)
{
p = ncol(x); n = nrow(x);
M = t(x)%*%y
Z = NULL; V = NULL; P = NULL;
for(k in 1:p)
{
svdm = svd(M)
z = x%*%svdm$u
z = z*as.numeric(1/sqrt(t(z)%*%z))
V = cbind(V,svdm$u)
p = t(x)%*%z/as.numeric(t(z)%*%z)
P = cbind(P,p);
Z = cbind(Z,z);
M = M - P%*%solve(t(P)%*%P)%*%t(P)%*%M;
}
return(list(Z=Z,V=V))
}
plsx = plsfunc(X,Y)
#scatterplots of pls components
par(mar=c(1,1,1,1))
layout(matrix(1:25,5,5))
mycols = rainbow(length(Y))
orY = order(Y)
for(i in 1:5)
{
for(j in 1:5)
{
plot(plsx$Z[,i],plsx$Z[,j],type="p",pch=16,col=mycols[orY])
}
}
betapls = t(plsx$Z)%*%Y
cbind(betapcr,betapls)
########################################
#feature selection in linear models
#libraries required
library(MASS)
library(leaps)
library(glmnet)
#####################
#Algorithmic
#best subsets selection
fitbsub = regsubsets(x=ozone[,2:9],y=ozone[,1])
summary(fitbsub)
#forward step-wise - via BIC
fit0 = lm(ozone~1,data=ozone)
fitf = stepAIC(fit0,scope=ozone~wind+temp+invHt+press+hum+vis+milPress+invTemp,direction="forward",data=ozone,k=log(nrow(ozone)))
summary(fitf)
#backwards step-wise - via BIC
fit = lm(ozone~.,data=ozone)
fitb = stepAIC(fit,direction="backward",data=ozone,k=log(nrow(ozone)))
summary(fitb)

复制代码

使用道具举报

报纸

yangbing1008 发表于 2016-5-29 22:11:05 |只看作者 |坛友微信交流群

感谢分享

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	鼓励积极发帖讨论

总评分: 论坛币 + 20 查看全部评分

使用道具举报

地板

Lisrelchen 发表于 2016-5-29 22:12:42 |只看作者 |坛友微信交流群

###########################
#lecture 5 code
#ozone data
ozone = read.csv("ozone.csv")
##################
#ridge regression
Y = as.numeric(ozone[,1]); Y = Y - mean(Y)
X = as.matrix(ozone[,-1]); X = scale(X,center=T,scale=F)
#ridge regression coefficient paths
lambdas = exp(seq(log(.01),log(10*nrow(ozone)),l=100))
betasr = matrix(0,length(lambdas),8)
for(i in 1:length(lambdas))
{
betasr[i,] = solve(t(X)%*%X + diag(rep(lambdas[i],8)))%*%t(X)%*%Y
}
plot(c(1,length(lambdas)),range(betasr),type="n",ylab="Coefficients",xlab="Lambda Index")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9))
plot(ozone)
########################################
#feature selection in linear models
#libraries required
library(MASS)
library(leaps)
library(glmnet)
#####################
#Algorithmic
#best subsets selection
fitbsub = regsubsets(x=ozone[,2:9],y=ozone[,1])
summary(fitbsub)
#forward step-wise - via BIC
fit0 = lm(ozone~1,data=ozone)
fitf = stepAIC(fit0,scope=ozone~wind+temp+invHt+press+hum+vis+milPress+invTemp,direction="forward",data=ozone,k=log(nrow(ozone)))
summary(fitf)
#backwards step-wise - via BIC
fit = lm(ozone~.,data=ozone)
fitb = stepAIC(fit,direction="backward",data=ozone,k=log(nrow(ozone)))
summary(fitb)
#######################
#L1 Regularization
fit0 = lm(ozone~.-1,data=ozone)
Y = as.numeric(ozone[,1])
X = as.matrix(ozone[,-1])
lam = 1
fitl = glmnet(x=X,y=Y,family="gaussian",lambda=lam,alpha=1)
cbind(fit0$coef,as.matrix(fitl$beta))
#lasso paths
fitl = glmnet(x=X,y=Y,family="gaussian",alpha=1)
plot(fitl,col=1:8)
legend(0,19,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.8)

复制代码

使用道具举报

7楼

Lisrelchen 发表于 2016-5-29 22:13:44 |只看作者 |坛友微信交流群

###########################
#lecture 6 code
#ozone data
#comparison: sparse regression methods
#libraries required
library(glmnet)
library(ncvreg)
#load in ozone data
ozone = read.csv("ozone.csv")
Y = as.numeric(ozone[,1]); Y = Y - mean(Y)
X = as.matrix(ozone[,-1]); X = scale(X,center=T,scale=F)
#Lasso
lam = 1
fit0 = lm(Y~X-1)
fitl = glmnet(x=X,y=Y,family="gaussian",lambda=lam,alpha=1)
cbind(fit0$coef,as.matrix(fitl$beta))
#Lasso paths
fitl = glmnet(x=X,y=Y,family="gaussian",alpha=1)
plot(fitl,col=1:8)
legend(0,19,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.8)
###############################
#least squares, lasso, adaptive lasso, SCAD, ridge, elastic net, MC+
lam = 1
betals = solve(t(X)%*%X)%*%t(X)%*%Y
betar = solve(t(X)%*%X + diag(rep(lam/2*nrow(ozone),8)))%*%t(X)%*%Y
fitl = glmnet(x=X,y=Y,family="gaussian",lambda=lam,alpha=1)
fital = glmnet(x=X,y=Y,family="gaussian",lambda=lam,alpha=1,penalty.factor=1/abs(betals))
fitel = glmnet(x=X,y=Y,family="gaussian",lambda=lam,alpha=.5)
fitscad = ncvreg(X,Y,family="gaussian",penalty="SCAD",lambda=lam)
fitmcp = ncvreg(X,Y,family="gaussian",penalty="MCP",lambda=lam)
mat = cbind(betals,betar,as.matrix(fitl$beta),as.matrix(fital$beta),as.matrix(fitel$beta),fitscad$beta[-1],fitmcp$beta[-1])
colnames(mat) = c("LS","Ridge","Lasso","A-Lasso","EL","SCAD","MC+")
mat
#############################
#compare ridge, lasso, elastic net & SCAD regualrization paths
par(mfrow=c(2,3))
par(mar=c(5,4,3,2))
betals = solve(t(X)%*%X)%*%t(X)%*%Y
lambdas = exp(seq(log(.01),log(100*nrow(ozone)),l=100))
betasr = matrix(0,length(lambdas),8)
for(i in 1:length(lambdas))
{
betasr[i,] = solve(t(X)%*%X + diag(rep(lambdas[i],8)))%*%t(X)%*%Y
}
plot(c(1,length(lambdas)),range(betals),type="n",ylab="Coefficients",xlab="Lambda Index",main="Ridge")
for(j in 1:8)
{
lines(betasr[length(lambdas):1,j],col=j)
}
legend(0,20,legend=names(ozone)[2:9],col=1:9,lty=rep(1,9),cex=.75)
fitl = glmnet(x=X,y=Y,family="gaussian",alpha=1)
plot(fitl,col=1:8,main="Lasso")
legend(0,20,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.75)
fitel = glmnet(x=X,y=Y,family="gaussian",alpha=.5)
plot(fitel,col=1:8,main="EL alpha=.5")
legend(0,20,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.75)
fitel = glmnet(x=X,y=Y,family="gaussian",alpha=.25)
plot(fitel,col=1:8,main="EL alpha=.25")
legend(0,20,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.75)
fitscad = ncvreg(X,Y,family="gaussian",penalty="SCAD")
plot(fitscad,col=1:8,main="SCAD",shade=F)
legend(6,30,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.75)
fitmcp = ncvreg(X,Y,family="gaussian",penalty="MCP")
plot(fitmcp,col=1:8,main="MC+",shade=F)
legend(6,30,legend=names(ozone)[2:9],col=1:8,lty=rep(1,8),cex=.75)

复制代码

使用道具举报

8楼

Lisrelchen 发表于 2016-5-29 22:15:56 |只看作者 |坛友微信交流群

%%%%%%%%%%%%%%%%%%%%%%%
%lecture 8 code
%LDA
dat = dlmread('zip.train');
x = dat(:,2:end);
[n,p] = size(x);
imshow(flipud(rot90(reshape(dat(1,2:end),16,16))))
nclass = length(unique(dat(:,1)));
Y = zeros(n,nclass);
nK = 0;
for i=1:nclass
Y(dat(:,1)==(i-1),i) = 1;
nK(i) = sum(Y(:,i));
end
X = x - ones(n,1)*mean(x);
mvecs = zeros(p,nclass);
for i=1:nclass
mvecs(:,i) = mean(X(Y(:,i)==1,:));
end
SigB = zeros(p,p);
for i=1:nclass
SigB = SigB + nK(i)*mvecs(:,i)*mvecs(:,i)';
end
SigT = X'*X;
SigW = SigT - SigB;
[V,D] = eig(SigB,SigW);
scatter(X*V(:,1),X*V(:,2),'SizeData',1)
axis tight
text(X*V(:,1),X*V(:,2),num2str(dat(:,1)))
scatter(X*V(:,3),X*V(:,4),'SizeData',1)
axis tight
text(X*V(:,3),X*V(:,4),num2str(dat(:,1)))
scatter(X*V(:,5),X*V(:,6),'SizeData',1)
axis tight
text(X*V(:,5),X*V(:,6),num2str(dat(:,1)))
[classNB,errNB] = classify(X,X,dat(:,1),'diaglinear');
[classLDA,errLDA] = classify(X,X,dat(:,1),'linear');
[classGLDA,errGLDA] = classify(X*V(:,1:10),X*V(:,1:10),dat(:,1),'diaglinear');
[errNB errLDA errGLDA]
tdat = dlmread('zip.test');
[tn,tp] = size(tdat);
tx = tdat(:,2:end);
tX = tx - ones(size(tdat,1),1)*mean(tx);
[classNB,errNB] = classify(tX,X,dat(:,1),'diaglinear');
[classLDA,errLDA] = classify(tX,X,dat(:,1),'linear');
[classGLDA,errGLDA] = classify(tX*V(:,1:10),X*V(:,1:10),dat(:,1),'diaglinear');
[sum(tdat(:,1)~=classNB)/tn, sum(tdat(:,1)~=classLDA)/tn, sum(tdat(:,1)~=classGLDA)/tn]

复制代码

使用道具举报

9楼

Lisrelchen 发表于 2016-5-29 22:18:21 |只看作者 |坛友微信交流群

###############
#lecture 9 code
#univariate logistic regression - simulated example
#note: change coefficients to understand logistic function
n = 250; p = 1;
x = matrix(rnorm(n*p),n,p)
beta0 = 0
beta = 1
eps = matrix(rnorm(n),n,1)
probs = exp(beta0 + x*beta + eps)/(1 + exp(beta0 + x*beta + eps))
Y = as.numeric(probs>.5)
#fitting logistic
fit = glm(Y ~ x,family="binomial")
summary(fit)
plot(x,Y)
xs = seq(min(x),max(x),l=1000)
pihat = exp(fit$coefficients[1] + xs*fit$coefficients[2])/(1 + exp(fit$coefficients[1] + xs*fit$coefficients[2]))
lines(xs,pihat)
lines(c(min(x),max(x)),c(.5,.5),lty=2)
###############
#looking at spam data
#reading in data
data = read.csv("spam_dat.csv",header=FALSE)
ndat = read.delim("spam_vars.txt",header=FALSE)
#parsing variable names
nams = NULL
for(i in 1:nrow(ndat))
{
vec = strsplit(as.character(ndat[i,]),split="_")
for(j in 1:length(vec[[1]]))
{
if(length(grep(":",vec[[1]][j]))>0)
{
vars = strsplit(vec[[1]][j],split=":")
nams = c(nams,vars[[1]][1])
}
}
}
Y = data[,58]
n = length(Y)
sum(Y)/n
X = as.matrix(log(1 + data[,1:57]))
colnames(X) = nams
X = scale(X)/sqrt(n-1)
dat = data.frame(Y,X)
#taking a subset of data
sdat = data.frame(Y,dat$george,dat$meeting,dat$total,dat$re,dat$edu,dat$free,dat$your)
plot(sdat,pch=16,cex=.5)
#########
#fit logistic model
fits = glm(Y~.,data=sdat,family="binomial",maxit=50)
summary(fits)
#individual variable total
fit = glm(Y~dat.total,data=sdat,family="binomial")
summary(fit)
plot(sdat$dat.total,sdat$Y)
xs = seq(min(sdat$dat.total),max(sdat$dat.total),l=1000)
pihat = exp(fit$coefficients[1] + xs*fit$coefficients[2])/(1 + exp(fit$coefficients[1] + xs*fit$coefficients[2]))
lines(xs,pihat)
lines(c(min(xs),max(xs)),c(.5,.5),lty=2)
#individual variable george
fit = glm(Y~dat.george,data=sdat,family="binomial")
summary(fit)
plot(sdat$dat.george,sdat$Y)
xs = seq(min(sdat$dat.george),max(sdat$dat.george),l=1000)
pihat = exp(fit$coefficients[1] + xs*fit$coefficients[2])/(1 + exp(fit$coefficients[1] + xs*fit$coefficients[2]))
lines(xs,pihat)
lines(c(min(xs),max(xs)),c(.5,.5),lty=2)
#individual variable free
fit = glm(Y~dat.free,data=sdat,family="binomial")
summary(fit)
plot(sdat$dat.free,sdat$Y)
xs = seq(min(sdat$dat.free),max(sdat$dat.free),l=1000)
pihat = exp(fit$coefficients[1] + xs*fit$coefficients[2])/(1 + exp(fit$coefficients[1] + xs*fit$coefficients[2]))
lines(xs,pihat)
lines(c(min(xs),max(xs)),c(.5,.5),lty=2)

复制代码

使用道具举报

10楼

Lisrelchen 发表于 2016-5-29 22:20:05 |只看作者 |坛友微信交流群

###############
#lecture 9 code
#classifying spam emails - HP data set
library(glmnet)
library(ncvreg)
#reading in data
data = read.csv("spam_dat.csv",header=FALSE)
ndat = read.delim("spam_vars.txt",header=FALSE)
#parsing variable names
nams = NULL
for(i in 1:nrow(ndat))
{
vec = strsplit(as.character(ndat[i,]),split="_")
for(j in 1:length(vec[[1]]))
{
if(length(grep(":",vec[[1]][j]))>0)
{
vars = strsplit(vec[[1]][j],split=":")
nams = c(nams,vars[[1]][1])
}
}
}
Y = data[,58]
n = length(Y)
sum(Y)/n
X = as.matrix(log(1 + data[,1:57]))
colnames(X) = nams
X = scale(X)/sqrt(n-1)
dat = data.frame(Y,X)
#taking a subset of data
sdat = data.frame(Y,dat$george,dat$meeting,dat$total,dat$re,dat$edu,dat$free,dat$your)
plot(sdat,pch=16,cex=.5)
#########
#fit logistic model
fits = glm(Y~.,data=sdat,family="binomial",maxit=50)
summary(fits)
###########
#sparse logistic regression
#penalized logistic - coefficients
lam = .1
Xs = as.matrix(sdat[,2:8])
sfitl = glmnet(x=Xs,y=Y,family="binomial",lambda=lam,alpha=1)
sfitr = glmnet(x=Xs,y=Y,family="binomial",lambda=lam,alpha=0)
sfitel = glmnet(x=Xs,y=Y,family="binomial",lambda=lam,alpha=.5)
sfitscad = ncvreg(Xs,Y,family="binomial",penalty="SCAD",lambda=lam)
mat = cbind(fits$coefficients[-1],as.matrix(sfitl$beta),as.matrix(sfitr$beta),as.matrix(sfitel$beta),sfitscad$beta[-1])
colnames(mat) = c("Logistic","Lasso","Ridge","EL","SCAD")
mat
#penalized logistic - regularization paths
sfitl = glmnet(x=Xs,y=Y,family="binomial",alpha=1)
sfitr = glmnet(x=Xs,y=Y,family="binomial",alpha=0)
sfitel = glmnet(x=Xs,y=Y,family="binomial",alpha=.5)
sfitscad = ncvreg(Xs,Y,family="binomial",,penalty="SCAD")
par(mfrow=c(2,2))
plot(sfitl,col=1:7,main="L1")
legend(0,-100,legend=names(sdat)[2:8],col=1:7,lty=rep(1,7),cex=.75)
plot(sfitr,col=1:7,main="Ridge")
legend(0,-10,legend=names(sdat)[2:8],col=1:7,lty=rep(1,7),cex=.75)
plot(sfitel,col=1:7,main="Elastic Net")
legend(0,-100,legend=names(sdat)[2:8],col=1:7,lty=rep(1,7),cex=.75)
plot(sfitscad,col=1:7,main="SCAD",shade=F)
legend(.22,-100,legend=names(sdat)[2:8],col=1:7,lty=rep(1,7),cex=.75)
#note: this takes a while to run
#full data L1 regularizaiton paths
fit1 = glmnet(x=X,y=Y,family="binomial")
plot(fit1)

复制代码

使用道具举报

返回列表

12 3 4 5 下一页

发帖

本版微信群

加好友,备注jltj
拉您入交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[Lecture Notes]Genevera Allen:Statistical Learning using R and Matlab [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

本帖隐藏的内容

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

本版微信群

扫码加我拉你入群