楼主: monstersivle
1059 4

[数据管理求助] 如何处理写在帖子里的数据,或是出现在网页里的数据(无下载通道的) [推广有奖]

博士生

7%

还不是VIP/贵宾

-

威望
0
论坛币
359 个
通用积分
181.9755
学术水平
40 点
热心指数
51 点
信用等级
22 点
经验
3400 点
帖子
215
精华
0
在线时间
187 小时
注册时间
2012-10-29
最后登录
2016-7-23

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好,
想咨询一下有没有便捷些的办法来处理写在帖子里的数据?比如像这样的:摘自(https://bbs.pinggu.org/thread-358237-1-1.html)
no     group   age      sex   bp0   bp1
-----------------------------------------
1.   1   placebo    35     Male   139   128
2.   2   placebo    44   Female   148   131
3.   3   placebo    50   Female   139   122
4.   4   placebo    48     Male   148   126
5.   5       low    60     Male   135   123
-----------------------------------------
6.   6       low    38     Male   150   130
7.   7       low    31   Female   144   130 把他们黏贴下来开始,一直到能在stata data browser里显示出正确的结构(跟原来帖子里的结构一致的),
[如果复制粘贴到stata里,就成单变量了;
如果贴到txt里,再引用insheet using *.txt,delim(" ")因为都是大空格,所以分隔符用" ",这样会有很多全是missing value的变量,有值的位置还错位,即:一部分在一个变量里,另一部分在另一个变量里,
所以只好手动在栏间加逗号,然后设delimiter(",")]
这中间有没有什么好方法?
先谢谢了。
p.s.
另外是对网页上数据的处理,比如:wikipedia 关于国家、地区代码和所在大陆编码的数据: x.txt (14.16 KB) [贴到txt里的网页数据]
维基百科上说:The data is in a plain text format suitable for automated processing.
“该数据格式便于自处理”,问题是如何快捷处理啊~~~
以下是我做的处理,
insheet using x.txt, delim(" ") clear
drop v2-v6
drop v8-v12
drop v14-v17
drop v19-v22
* concatenate这个指令用于连接多个字串变量,参help egen, ctrl+f: concat 配合punct加字串间的空格:
egen name=concat(v2* v3*),punct(" ")
drop v2* v3*
rename v1 continent
rename v7 ISO2
rename v13 ISO3
rename v18 ISOn
sort continent
save continent,replace
有没有更便捷的方式,比如concat()前drop 那几个missing variables 那里有没有一条指令就能实现的方法。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:concatenate Processing Continent Automated Wikipedia 下载 如何 通道 网页

不爱其亲而爱他人者,谓之悖德;不敬其亲而敬他人者,谓之悖礼。——《孝经》
沙发
fgleric 发表于 2012-12-16 05:05:49 |只看作者 |坛友微信交流群
这个是ISO国家代码吧

呵呵,真不用这么麻烦。

把txt拷贝到excel,然后按照固定宽度分列就可以了。

实在想用stata,

使用道具

藤椅
monstersivle 发表于 2012-12-16 06:35:37 |只看作者 |坛友微信交流群
fgleric 发表于 2012-12-16 05:05
这个是ISO国家代码吧

呵呵,真不用这么麻烦。
copy到Excel里是单栏,具体如何在excel里按照固定宽度分列?
不爱其亲而爱他人者,谓之悖德;不敬其亲而敬他人者,谓之悖礼。——《孝经》

使用道具

板凳
fgleric 发表于 2012-12-16 10:01:13 |只看作者 |坛友微信交流群
monstersivle 发表于 2012-12-16 06:35
copy到Excel里是单栏,具体如何在excel里按照固定宽度分列?
使用固定宽度选项,会自动调整的
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
monstersivle + 1 + 1 + 1 好的意见建议

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

报纸
monstersivle 发表于 2012-12-16 10:16:44 |只看作者 |坛友微信交流群
fgleric 发表于 2012-12-16 10:01
使用固定宽度选项,会自动调整的
Amazing,又长见识了。
Excel->数据->自文本->下一步->调整宽度->完成
非常感谢! d1.jpg d2.jpg d3.jpg d4.jpg d5.jpg d6.jpg d7.jpg d8.jpg
不爱其亲而爱他人者,谓之悖德;不敬其亲而敬他人者,谓之悖礼。——《孝经》

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 08:52