楼主: complicated
1954 1

[R] 那些年我们用过的二分类算法——小白级科普 [推广有奖]

  • 3关注
  • 18粉丝

已卖:10份资源

副教授

65%

还不是VIP/贵宾

-

威望
0
论坛币
6463 个
通用积分
3868.8149
学术水平
88 点
热心指数
86 点
信用等级
58 点
经验
21958 点
帖子
506
精华
0
在线时间
1425 小时
注册时间
2007-6-16
最后登录
2024-4-20

楼主
complicated 在职认证  发表于 2015-3-6 14:41:22 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
# 那些年我们用过的二分类算法——小白级科普

# 目的
# 简单来说就是教给非科班出身只想尽快应用的你怎么解决Y=0/1这类模型的训练和评测

# 数据
#
http://archive.ics.uci.edu/ml/da ... +Company+Benchmark+(COIL+2000)
# 烂大街的数据集,大概是保险公司的客户信息,反正Y要么是0要么是1,X有85个之多
# 这个数据已经把用于训练模型的和用于评价模型性能的数据分开了

# 算法
# 泊松回归、Logistic回归、SVM和随机森林
# Packages Used:   e1071,randomForest

### data import
train <- read.table(
  "http://archive.ics.uci.edu/ml/machine-learning-databases/tic-mld/ticdata2000.txt", header=F)

test <-cbind(
  read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/tic-mld/ticeval2000.txt", header=F),
  read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/tic-mld/tictgts2000.txt", header=F ))
names(test)[86] <- "V86"
head(train)

## models

  1. pois <- glm(V86 ~ ., family= poisson(), data=train)  ##泊松回归
  2. logi <- glm(V86 ~ ., family= binomial(link="logit"), data=train) ##logisitic回归
复制代码

# 这两个货有什么区别,我不是太清楚,不过似乎Logistic用的多一些

#支持向量机
  1. library(e1071)
  2. svm1 <- svm(V86 ~ ., data=train )
复制代码


#随机森林
  1. library(randomForest)
  2. rforest <- randomForest(V86 ~ ., data=train)
复制代码



## evaluation
# 评价模型,主要是混淆矩阵和衍生的查全率、查准率,这里以Y=1为评价目标
  1. rslt <- function( model) { # model test
  2.   z <- ( predict( model, test, type="response") > 0.5 )
  3.   zz<- table(z, test$V86 , dnn =c("pred","act")) # 混淆矩阵
  4.   out <- list( c.m = zz,  
  5.                accuracy = 1-( sum(zz) - sum(diag(zz)))/sum(zz) , # 查准率
  6.                cover = sum(zz[1,2]/sum(zz[,2])) # Y=0查全率
  7.   )
  8.   return(out)
  9. }

  10. rslt( pois)
  11. rslt( logi)
  12. rslt( svm1 )
  13. rslt( rforest)
复制代码



# 结论:论精度SVM最好,论速度logistic性价比最高。

# 不想玩深的话,把数据处理好,直接套就可以用了。

# 想玩深一点的话有以下议题:

# 1.step的logistic,稳健的Logistic,样本非平衡性处理后的Logistic

# 2.SVM的核函数各种调整,参数的各种调整

# 3.随机森林的各种调整

# 4.决策树、贝叶斯分类器以及其他




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类算法 那些年 二分类 randomForest logistic回归 二分类变量 logistic SVM randomForest 分类器 二分类变量 logistic SVM randomForest 分类器

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 100 + 100 + 5 + 5 + 5 精彩帖子
我的素质低 + 20 精彩帖子

总评分: 经验 + 100  论坛币 + 120  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

本帖被以下文库推荐

密码被盗??

沙发
gafciausa 发表于 2015-3-6 14:45:56
好材料,收藏了.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 12:32