11261 4

[问答] 大数据中的离群值和异常值处理 [推广有奖]

  • 0关注
  • 0粉丝

大专生

5%

还不是VIP/贵宾

-

威望
0
论坛币
96 个
通用积分
1.0005
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
888 点
帖子
38
精华
0
在线时间
20 小时
注册时间
2017-2-5
最后登录
2020-1-13

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
QQ截图20170419220900.png
这是其中一个个体一天的体重记录
11111111.png
这个是总体的体重记录的直方图
因为这些体重都是机器测的,所以会有很多有误差, 我就想把这些有误差的体重给去除,来计算真正的每日体重。
如图,想问问在R里面怎么才能把离群的这些点给去除,我尝试过用上下四分位数,但是好像并不能完全除去这些离群的点。
看了很多种方法, 但是对于我的这批数据,好像都很难去除。
下面是数据 project6.xlsx (4.74 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 异常值 离群值 分位数 真正的

沙发
stzhao 在职认证  发表于 2017-4-20 00:31:31 |只看作者 |坛友微信交流群
  1. library(tidyverse)
  2. library(readxl)
  3. dat <- read_excel("project6.xlsx", 1)
  4. mydata <-
  5.       dat %>%
  6.       mutate(EntryDate = as.Date(EntryDate)) %>%     # 确保是日期不是时间格式
  7.       group_by(ID, EntryDate) %>%
  8.       filter((Weight > median(Weight) - 0.5 * IQR(Weight)) &
  9.              (Weight < median(Weight) + 0.5 * IQR(Weight))) %>%
  10.       ungroup()
复制代码

可以把0.5换成其它数字试试

使用道具

stzhao 发表于 2017-4-20 00:31
可以把0.5换成其它数字试试
在处理的时候还是遇到了一些问题,我想按照四分位距的方法来筛选处理,但是group_by好像不成功,因为每天的数据量是不一样的,所以就有警告,我不知道这是不是造成我处理失败的原因。
11111111.png

11.png

333.png


使用道具

板凳
stzhao 在职认证  发表于 2017-4-26 16:31:24 |只看作者 |坛友微信交流群
quantile(weight)长度是5,你得用quantile(weight)[3],或者用median(weight)

使用道具

stzhao 发表于 2017-4-26 16:31
quantile(weight)长度是5,你得用quantile(weight)[3],或者用median(weight)
可以啦,非常非常感谢~~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 15:33