1450 2

[实际应用] R语言中保存数据出现大量重复 [推广有奖]

  • 0关注
  • 0粉丝

高中生

27%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
166 点
帖子
8
精华
0
在线时间
30 小时
注册时间
2018-1-31
最后登录
2023-3-14

楼主
坚持下去会死吗 发表于 2021-1-17 12:24:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

各位老师/高手好:

    我的原始数据集为a.xslx格式,有220494(行)*72(列),其中ID号为唯一的识别号。

我用library(readxl),a_1<- read_excel("a.xlsx")导入数据后显示行列数正常为220494(行)*72(列),使用a_2<- a_1 [duplicated(a_1$ID),]语句,并未发现有重复的行:0(行)*72(列)。

问题1:我使用write.table(a_1,"a_1.csv",row.names=FALSE,col.names=TRUE,sep=",")保存为CSV格式数据,然后下次使用a_1 <- read.csv(file =" a_1.csv",header = TRUE, sep = ",")读取之后,数据集显示为186613*72,是不是在这个过程中我的个案丢失了很多,什么原因导致的?应该如何处理?

另外将a_1.csv格式的数据再保存为同名xlsx格式的数据集后再次读入,行列数量正常了,但是新的问题出现了:判断ID是否唯一的时候,出现了大量的重复,我在excel中核对,确实很多个案的ID号发生了变化,不是原来的ID了。到底是什么原因呢?整个过程有应该如何操作呢?


问题2:使用save(a_2,file = " a_2.Rdata")语句保存为R.data格式的数据集后,下次导入load("a_2.Rdata"),再次使用[duplicated(a_2$ID),]语句判断,发现有大量的重复值,是什么原因导致的呢?


R入门小白,请各位老师/高手指正!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 Library BRARY READ 原始数据 R语言、

沙发
katymeala 发表于 2021-1-17 19:18:39
read_excel读进来的不是dataframe是个tibble, 不能按照正常操作, 你可以as.dataframe下再看
已有 1 人评分论坛币 收起 理由
admin_kefu + 20 精彩帖子

总评分: 论坛币 + 20   查看全部评分

藤椅
坚持下去会死吗 发表于 2021-1-20 14:27:53
katymeala 发表于 2021-1-17 19:18
read_excel读进来的不是dataframe是个tibble, 不能按照正常操作, 你可以as.dataframe下再看
好的,感谢感谢,我试试

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-21 03:10