人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › Stata专版 › Stata如何剔除每个单元格内重复的字符串

发帖

楼主: 周正

2084 4

[数据管理求助] Stata如何剔除每个单元格内重复的字符串 [推广有奖]

0关注
0粉丝

大专生

81%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 212 点
帖子: 11
精华: 0
在线时间: 102 小时
注册时间: 2010-2-8
最后登录: 2023-10-22

楼主

周正

发表于 2021-8-3 22:12:14 |AI写论文

7论坛币

数据如下，我想剔除file列每个单元格内的重复字符串，剔除后的结果应该像result列所示那样，请问有什么方法吗？

* Example generated by -dataex-. To install: ssc install dataex
clear
input strL(file result)
"CA294156;CA297738B;CA294156;UB101920C" "CA294156;CA297738B;UB101920C"
"CA298876;CA297738B;CA294156;UB451920C;UB451920C" "CA298876;CA297738B;CA294156;UB451920C"
"CA2865372C;BP20189789;CA2865372C;BP20189789" "CA2865372C;BP20189789"
"TY345728N;TY345728N" "TY345728N"
end

复制代码

分享0 收藏0 回帖

关键词：Stata tata 字符串单元格 generated

相关帖子

沙发

逍遥梦蝶 发表于 2021-8-5 09:09:56

* Import raw example data
cls
clear
input strL(file)
"CA294156;CA297738B;CA294156;UB101920C"
"CA298876;CA297738B;CA294156;UB451920C;UB451920C"
"CA2865372C;BP20189789;CA2865372C;BP20189789"
"TY345728N;TY345728N"
end
list
*- Split long strings into columns
split file, parse(";") gen(unit)
*- Reshape to long data structure
gen i = _n
reshape long unit, i(i) j(j)
*- Drop repeated character units
drop if missing(unit)
drop j
duplicates drop
*- Reshape to wide data structure
bysort i: gen j = _n
reshape wide unit, i(i) j(j)
*- Add semicolon to each character units
foreach v of varlist unit* {
replace `v' = `v' + ";" if !missing(`v')
}
*- Put all character units together by row and remove the last semicolon
egen result = concat(unit*)
replace result = substr(result, 1, length(result)-1)
keep file result // Get what you want

复制代码

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
Sunknownay	+ 3	+ 3	+ 3	热心帮助其他会员

总评分: 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

藤椅

zdlspace

发表于 2021-8-5 17:35:52

我也写一个简单的循环来实现吧，正好熟悉一下continue的使用。

split file,parse(";")
forval i=1/`r(nvars)' {
forval j=1/`r(nvars)' {
if `j'<=`i'{
continue
}
replace file`j'="" if file`i'==file`j'
}
}
foreach v of varlist file? {
replace `v'=`v'+";" if !mi(`v')
}
egen result=concat(file?)
replace result=substr(result,1,strlen(result)-1)

复制代码

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
Sunknownay	+ 3	+ 3	+ 3	热心帮助其他会员

总评分: 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

板凳

01zhouxuemei

发表于 2021-10-8 11:02:22

duplicate drop命令不行吗？

报纸

pengxhan 发表于 2021-10-9 14:23:46

我也来个练练手
split file,p(;)
drop file
sxpose,clear
forvalues i=1/4{
levelsof _var`i', local(mylev) clean
gen x`i'="`mylev'"
}
keep x1-x4
duplicates drop
sxpose,clear

返回列表

发帖

本版微信群

加好友,备注jltj
拉您入交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[数据管理求助] Stata如何剔除每个单元格内重复的字符串 [推广有奖]

相关帖子

浏览过的帖子

浏览过的版块

本版微信群