楼主: melodyhome
3416 16

[数据管理求助] 【乱码转换奔溃】全国调查数据乱码,用尽办法,软件奔溃 [推广有奖]

11
蓝色 发表于 2017-12-10 08:24:09
1、stata13很好用,现在依然使用
2、数据不用用中文,如果有中文标签的,那就保留但是加标签的程序,
在stata14中打开没有中文的数据,添加标签就可以。

12
黃河泉 在职认证  发表于 2017-12-10 08:38:45
蓝色 发表于 2017-12-10 08:24
1、stata13很好用,现在依然使用
2、数据不用用中文,如果有中文标签的,那就保留但是加标签的程序,
在s ...
我搞不太懂为何 Stata 13 处理 (import) 中文(简体或繁体)似乎是 OK 的,但 14, 15 版总是要另外处理?

13
蓝色 发表于 2017-12-10 09:06:38
黃河泉 发表于 2017-12-10 08:38
我搞不太懂为何 Stata 13 处理 (import) 中文(简体或繁体)似乎是 OK 的,但 14, 15 版总是要另外处理?
Stata13和stata14对中文的默认编码格式是不一样的。

Stata 14 默认的编码为Unicode编码。Unicode 为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

Stata 13应该默认是 通行的国标码(GB18030),也是数值表示的。(许多软件默认也是GB18030编码)
但stata14打开stata13的文件的时候,同一的数值,如0001,在两套系统里面编码是不同的,就出现乱码。
所以需要转换,把GB18030  转换成Unicode编码,就能正常显示。

英文、数字的编码应该是两种编码都是一样的,所以没有问题。 所以,最好用拼音、英文和数字,不容易出现问题

14
黃河泉 在职认证  发表于 2017-12-10 09:25:11
蓝色 发表于 2017-12-10 09:06
Stata13和stata14对中文的默认编码格式是不一样的。

Stata 14 默认的编码为Unicode编码。Unicode 为每 ...
谢谢,又长了一些知识!此外,除了 encode 外,您知不知道有什么其它指令会让数值变成"蓝色的"呢?

15
黃河泉 在职认证  发表于 2017-12-10 09:43:11
蓝色 发表于 2017-12-10 09:29
rep78就成蓝色的了
了解,也非常感谢!

16
melodyhome 发表于 2017-12-10 18:08:18
蓝色 发表于 2017-12-10 08:24
1、stata13很好用,现在依然使用
2、数据不用用中文,如果有中文标签的,那就保留但是加标签的程序,
在s ...
这个只是社区层面的数据,体积比较小,因而拿出来向大家求教。
然而该机构提供的个体数据(400M大小)依然无法直接用stata 14直接进行unicode的转换,原因是部分标签的字符长度超出限制。先转成spss的sav格式,对比发现有9个变量的标签被截断(超出长度限制部分直接删除了)。由此转回dta格式可以处理unicode的问题。
找到没有添加标签的数据再添加标签,这个方法麻烦极了吧。。。

17
蓝色 发表于 2017-12-10 18:13:32
melodyhome 发表于 2017-12-10 18:08
这个只是社区层面的数据,体积比较小,因而拿出来向大家求教。
然而该机构提供的个体数据(400M大小)依 ...
你如果不了解原始的数据
以后还会遇到麻烦事情

而且写do文件没有什么麻烦

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-23 19:30