楼主: 疯狂云焕
1409 1

[学习分享] 【转载】如何使用R语言解决可恶的脏数据 [推广有奖]

  • 0关注
  • 0粉丝

已卖:566份资源

大专生

98%

还不是VIP/贵宾

-

威望
0
论坛币
528 个
通用积分
1.1200
学术水平
0 点
热心指数
2 点
信用等级
0 点
经验
2331 点
帖子
18
精华
0
在线时间
102 小时
注册时间
2012-2-7
最后登录
2020-10-28

楼主
疯狂云焕 发表于 2016-4-25 23:57:18 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。


脏数据的存在形式主要有如下几种情况:

1)缺失值2)异常值3)数据的不一致性

下面就跟大家侃侃如何处理这些脏数据。

一、缺失值

缺失值,顾名思义就是一种数据的遗漏,常见的缺失值汇总:

1)会员信息缺失,如身份证号、手机号、性别、年龄等

2)消费数据缺失,如消费次数、消费金额、客单价,卡余等

3)产品信息缺失,如批次、价格、折扣、所属类别等

根据实际的业务需求不同,可以对缺失值采用不同的处理办法,如需要给会员推送短信,而某些会员恰好手机号不存在,可以考虑剔除;如性别不知道,可以使用众数替代;如年龄未知,可以考虑用均值替换。当然还有其他处理缺失值的办法,如多重插补法。下面以一个简单的例子,来说明缺失值的处理。

#模拟一批含缺失值的数据集

set.seed(1234)

Tel <- 13812341000:13812341999

Sex <- sample(c('F','M'), size = 1000, replace = T, prob = c(0.4,0.6))

Age <- round(runif(n = 1000, min = 18, max = 60))

Freq <- round(runif(n = 1000, min = 1, max = 368))

Amount <- rnorm(n = 1000, mean = 134, sd = 10)

ATV <- runif(n = 1000, min = 23, max = 138)

df <- data.frame(Tel = Tel, Sex = Sex, Age = Age, Freq = Freq, Amount =Amount, ATV = ATV)





剩下的见附件

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:如何使用 R语言 处理缺失值 数据缺失 身份证号 如何

R-数据清洗.docx
下载链接: https://bbs.pinggu.org/a-2021975.html

855.22 KB

需要: 4 个论坛币  [购买]

已有 1 人评分论坛币 热心指数 收起 理由
jiangbeilu + 20 + 2 奖励积极上传好的资料

总评分: 论坛币 + 20  热心指数 + 2   查看全部评分

不约

沙发
jiangbeilu(未真实交易用户) 学生认证  发表于 2016-4-26 10:58:37
学习了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 04:25