人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R语言教程：Tidyverse数据清洗常用操作

发帖

楼主: polyphagia

601 0

[学习分享] R语言教程：Tidyverse数据清洗常用操作 [推广有奖]

2关注
0粉丝

已卖：251份资源

博士生

10%

还不是VIP/贵宾

威望: 0 级
论坛币: 1413 个
通用积分: 208.6144
学术水平: 6 点
热心指数: 6 点
信用等级: 6 点
经验: 14260 点
帖子: 59
精华: 0
在线时间: 318 小时
注册时间: 2020-12-12
最后登录: 2025-2-23

楼主

polyphagia

发表于 2024-8-15 14:09:09 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Tidyverse包是R语言中强大的数据处理包，管道式的编程模式让代码优雅整洁，建议学习R语言的朋友及早接触Tidyverse包，可大大提高编程效率。

操作代码：

# 清空环境（此步骤为个人习惯，清空当前R环境中的对象，避免混淆）

rm(list = ls())

复制代码

# 设置工作路径（将此处路径更换为自己的工作文件夹路径，建议将需要导入的数据直接放入工作文件夹，可省略后续添加工作路径的步骤）

setwd("E:/Downloads/OneDrive/ProPhet/Codes/RCode/DataClean")

复制代码

# 加载包（下述代码在包已安装时直接加载包，在包未安装时将自动下载安装包，安装成功后再次运行即可加载包）。

## 加载导入Stata(.dta）格式数据的包haven

if (! require("haven")) install.packages("haven")

复制代码

## 加载数据处理的包Tidyverse

if (! require("Tidyverse")) install.packages("Tidyverse")

复制代码

# 导入数据

## 导入数据

dm<-read_dta("demographic_background.dta") #### 人口学特征
hlt<-read_dta("health_status_and_functioning.dta") #### 健康情况
bm<-read_dta("biomarkers.dta") #### 体检数据
bld<-read_dta("Blood_20140429.dta") #### 血检指标

复制代码

# 数据处理：Tidyverse包

## 筛选变量

### 人口学特征
colnames(dm) #### 查看数据集变量名
dmslc<-dm %>%
#### 生成新变量
mutate(age=2011-ba002_1,
gender=rgender,
education=ifelse(bd001<4,"Illiterate",
ifelse(bd001==4,"Elementary school",
ifelse(bd001==5,"Middle school","High school and above"))),
mariage=ifelse(be001<3,"married",
ifelse(be001==6,"Never married","Others"))) %>%
#### 筛选变量
select(ID,age,gender,education,mariage)
### 健康情况
colnames(hlt) #### 查看数据集变量名
hltslc<-hlt %>%
#### 生成新变量
mutate(hyper=ifelse(da007_1_==1,1,0),
dm=da007_3_,
sleep=ifelse(da049<5,1,ifelse(da049<=7,2,3))) %>%
#### 筛选变量
select(ID,hyper,dm,sleep)
### 体检数据
colnames(bm) #### 查看数据集变量名
bmslc<-bm %>%
#### 生成新数据集
mutate(bmi=ql002/(qi002/100)^2,
waist=qm002) %>%
#### 筛选变量
select(ID,bmi,waist)
### 血检数据
colnames(bld) #### 查看数据集变量名
bldslc<-bld %>%
#### 生成新变量
mutate(BUN=newbun,
GLU=newglu,
CREA=newcrea,
CHO=newcho,
TG=newtg,
HDLC=newhdl,
LDLC=newldl,
CRP=newcrp,
UA=newua) %>%
#### 筛选变量
select(ID,BUN,GLU,CREA,CHO,TG,HDLC,LDLC,CRP,UA)

复制代码

## 数据合并、变量赋值、删除缺失值

merge.data<-dmslc %>%
#### 数据合并
inner_join(hltslc,by="ID") %>% #### inner_join为内连接，仅对两数据集共有样本进行匹配
left_join(bmslc,by="ID") %>% #### left_join为左连接，保留主数据集全部样本
full_join(bldslc,by="ID") %>% #### right_join为右链接，保留匹配数据集全部样本
#### 变量赋值：
mutate(gender=factor(gender,levels = c(1,2),labels = c("Male","Female")),
education=factor(education,
levels = c("Illiterate","Elementary school",
"Middle school","High school and above")),
mariage=factor(mariage,levels = c("married","Never married","Others")),
dm=factor(dm,levels = c(1,2),labels = c("Yes","No")),
sleep=factor(sleep,levels = c(1,2,3),labels = c("<5h","5-7h",">7h"))) %>% #### 删除缺失值
#### 删除缺失值
drop_na() %>%
### 转换为data.frame
as.data.frame()

复制代码

# 导出数据

## 导出为Excel（.cav）数据

write.csv(merge.data,"DataClean.csv",fileEncoding = "GB18030")

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：R语言教程 vers tid ERS Ver

[学习分享] R语言教程：Tidyverse数据清洗常用操作 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学习分享] R语言教程：Tidyverse数据清洗常用操作 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群