想咨询一下有没有便捷些的办法来处理写在帖子里的数据?比如像这样的:摘自(https://bbs.pinggu.org/thread-358237-1-1.html)
no group age sex bp0 bp1
-----------------------------------------
1. 1 placebo 35 Male 139 128
2. 2 placebo 44 Female 148 131
3. 3 placebo 50 Female 139 122
4. 4 placebo 48 Male 148 126
5. 5 low 60 Male 135 123
-----------------------------------------
6. 6 low 38 Male 150 130
7. 7 low 31 Female 144 130 把他们黏贴下来开始,一直到能在stata data browser里显示出正确的结构(跟原来帖子里的结构一致的),
[如果复制粘贴到stata里,就成单变量了;
如果贴到txt里,再引用insheet using *.txt,delim(" ")因为都是大空格,所以分隔符用" ",这样会有很多全是missing value的变量,有值的位置还错位,即:一部分在一个变量里,另一部分在另一个变量里,
所以只好手动在栏间加逗号,然后设delimiter(",")]
这中间有没有什么好方法?
先谢谢了。
p.s.
另外是对网页上数据的处理,比如:wikipedia 关于国家、地区代码和所在大陆编码的数据:
维基百科上说:The data is in a plain text format suitable for automated processing.
“该数据格式便于自处理”,问题是如何快捷处理啊~~~
以下是我做的处理,
insheet using x.txt, delim(" ") clear
drop v2-v6
drop v8-v12
drop v14-v17
drop v19-v22
* concatenate这个指令用于连接多个字串变量,参help egen, ctrl+f: concat 配合punct加字串间的空格:
egen name=concat(v2* v3*),punct(" ")
drop v2* v3*
rename v1 continent
rename v7 ISO2
rename v13 ISO3
rename v18 ISOn
sort continent
save continent,replace
有没有更便捷的方式,比如concat()前drop 那几个missing variables 那里有没有一条指令就能实现的方法。