2464 3

[问答] R的缺失值处理 解决了给10个币 [推广有奖]

  • 0关注
  • 0粉丝

大专生

73%

还不是VIP/贵宾

-

威望
0
论坛币
626 个
通用积分
0.7500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
356 点
帖子
26
精华
0
在线时间
91 小时
注册时间
2011-11-25
最后登录
2022-11-27

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
http://archive.ics.uci.edu/ml/datasets/Hepatitis
hepatitis.csv
hepatitis.rar (2.09 KB) 本附件包括:
  • hepatitis.csv
这个数据研究了一个星期的缺失值,怎么也处理不好。请各位高手给出意见 。附件是我编辑好的数据。数据描述是连接。
就是研究生死 和 各个相关健康状态的分类数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:缺失值处理 10个币 缺失值 datasets dataset 健康

沙发
wxc0429 发表于 2011-12-28 18:37:51 |只看作者 |坛友微信交流群
我这有种方法,需要用到两个package,先提出缺失率比较大的观测,然后对剩余的缺失值进行填补,具体程序如下:
library(foreign)
library(DMwR)
read.csv("hepatitis.csv")->A
head(A)
A=A[-manyNAs(A,0.2),]  #delete the observation that has NAs more then 20%
clean.A=knnImputation(A,k=10)  #imputate the left NAs use the similarities between the rows
所谓模型,就是用统计语言简化了的现实世界;越贴近实际情况,效果越佳。

使用道具

藤椅
snakepointid 发表于 2015-6-18 13:35:21 |只看作者 |坛友微信交流群
因为你要研究的是分类问题。建议用随机森林的办法补齐确实值,这样可以方便你进行分类问题的模型处理。
library(missForest)
missForest(dataframe)

使用道具

板凳
Spacelin09 发表于 2015-8-22 17:29:23 |只看作者 |坛友微信交流群
snakepointid 发表于 2015-6-18 13:35
因为你要研究的是分类问题。建议用随机森林的办法补齐确实值,这样可以方便你进行分类问题的模型处理。
li ...
spss里面分类变量该如何操作啊

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-15 07:02