[实际应用] R语言中保存数据出现大量重复 [推广有奖]

0关注
0粉丝

高中生

27%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 166 点
帖子: 8
精华: 0
在线时间: 30 小时
注册时间: 2018-1-31
最后登录: 2023-3-14

楼主

坚持下去会死吗 发表于 2021-1-17 12:24:10 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位老师/高手好：

我的原始数据集为a.xslx格式，有220494（行）*72（列），其中ID号为唯一的识别号。

我用library(readxl)，a_1<- read_excel("a.xlsx")导入数据后显示行列数正常为220494（行）*72（列），使用a_2<- a_1 [duplicated(a_1$ID),]语句，并未发现有重复的行：0（行）*72（列）。

问题1：我使用write.table(a_1,"a_1.csv",row.names=FALSE,col.names=TRUE,sep=",")保存为CSV格式数据，然后下次使用a_1 <- read.csv(file =" a_1.csv",header = TRUE, sep = ",")读取之后，数据集显示为186613*72，是不是在这个过程中我的个案丢失了很多，什么原因导致的？应该如何处理？

另外将a_1.csv格式的数据再保存为同名xlsx格式的数据集后再次读入，行列数量正常了，但是新的问题出现了：判断ID是否唯一的时候，出现了大量的重复，我在excel中核对，确实很多个案的ID号发生了变化，不是原来的ID了。到底是什么原因呢？整个过程有应该如何操作呢？

问题2：使用save(a_2,file = " a_2.Rdata")语句保存为R.data格式的数据集后，下次导入load("a_2.Rdata")，再次使用[duplicated(a_2$ID),]语句判断，发现有大量的重复值，是什么原因导致的呢？

R入门小白，请各位老师/高手指正！