楼主: adamesky
50685 43

[数据管理求助] 如何在stata14中用unicode命令转换不可识别的变量标签?   [推广有奖]

  • 0关注
  • 6粉丝

VIP

已卖:482份资源

讲师

38%

还不是VIP/贵宾

-

威望
0
论坛币
10581 个
通用积分
87.6055
学术水平
10 点
热心指数
13 点
信用等级
6 点
经验
5332 点
帖子
354
精华
0
在线时间
274 小时
注册时间
2005-3-26
最后登录
2025-12-10

楼主
adamesky 发表于 2015-7-30 12:43:43 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我在STATA14中打开一个数据文件,结果是乱码。然后我用unicode analyze 对其进行分析,结果说该文件需要进行 unicode translate。于是用该命令对其进行转换,结果出现如下结果:
2 variable labels okay, ASCII
        0 variable labels okay, already UTF-8
      239 variable labels cannot be translated
      all str# variables okay, ASCII
          --------------------------------------------------------------------------------------
          File not translated because it contains unconvertable characters;
             you might need to specify a different encoding, but more likely you need to run
             unicode translate with the invalid option

  File 000004.dta still needs translation

  File summary:
      all files not translated because they contain unconvertable characters;
             you might need to specify a different encoding, but more likely you need to run
             unicode translate with the invalid option
结果是说所有文件都没被转换,原因是包含不可转换的字母。如果添加invalid选项,那么所有标签仍然是怪异的符号。请路过的高人指点一下,原因何在?谢谢!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata14 unicode Stata tata code stata14; unicode; unconvertable characters;

已有 2 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 精彩帖子
aliciamao + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 2  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
adamesky 发表于 2015-7-30 14:16:44
这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如,如果原始数据中变量标签为中文,用stata14打开时,变量标签无法识别。此时,需要设定编码类型。命令为 unicode encoding set gb18030,即设定编码类型为国标18030,即简体中文。然后,用unicode analyze filename.dta 分析文件是否需要转换,如结果为需要,那么继续用unicode translate filename.dta来转换数据文件中不可识别的中文汉字。成功以后,原始数据中不能识别的中文则可以在stata14中识别了。
已有 5 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
maomo90 + 1 + 1 + 1 精彩帖子
jane-reality + 5 + 3 精彩帖子
李下蹊666 + 1 + 1 精彩帖子
日新少年 + 1 + 1 + 1 精彩帖子
niuniuyiwan + 60 + 1 + 1 好的意见建议

总评分: 经验 + 60  论坛币 + 5  学术水平 + 4  热心指数 + 6  信用等级 + 3   查看全部评分

藤椅
offandon 发表于 2015-9-26 11:53:04
adamesky 发表于 2015-7-30 14:16
这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如,如果原始数据中变量标签为中文, ...
楼主,问下分析完如何从14的do文档修改为13可以看的。

板凳
蓝色 发表于 2015-9-26 21:53:32
stata13变成stata14现在可以实现
反过来不行

所以,如果要有14就全部用stata14
不要stata13和stata14混用
已有 1 人评分经验 论坛币 学术水平 热心指数 收起 理由
夏目贵志 + 10 + 10 + 1 + 1 能不混用最好任何时候都不要混用,谁知道会.

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

报纸
xingyun1688 学生认证  发表于 2015-12-12 17:50:12
adamesky 发表于 2015-7-30 14:16
这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如,如果原始数据中变量标签为中文, ...
楼主,问一下,如果是变量中的中文怎么办? 如国家名什么的 谢谢

地板
caesarljs 在职认证  学生认证  发表于 2016-1-23 22:13:35

cd "D:\long term care\CHARLS\stata\data\household_and_community_questionnaire_data" 【先设置你的working directory】unicode analyze psu.dta  (Directory ./bak.stunicode created; please do not delete)  File summary (before starting):        1  file(s) specified        1  file(s) to be examined ...  File psu.dta (Stata dataset)        2 str# variables need translation          ----------------------------------------------------------------------------------------------------------          File needs translation.  Use unicode translate on this file.  File psu.dta needs translation  File summary:        1 file(s) need translation【总结:Stata告诉你,你这个file需要转换】unicode encoding set "GB18030"   (default encoding now GB18030)【这里是告诉Stata这数据本来的unicode encoding是怎么样的,我死活找不到CHARLS的unicode encoding,后来在国外网站说中文一般用GB18030都可以,就试了试。之前我还用过据说很常用的Windows-1252,但在这里没有用!!!】unicode retranslate psu.dta, transutf8  (using GB18030 encoding)  File summary (before starting):        1  file(s) specified        1  file(s) to be examined ...  File psu.dta (Stata dataset)      all variable names translated      all data labels translated      all variable labels translated      all value-label names translated      all value-label contents translated      all characteristic names translated      all characteristic contents translated      all str# variables translated          ----------------------------------------------------------------------------------------------------------          File successfully translated  File summary:      all files successfully translated【这里就是让Stata把数据转换为支持中文的UTF-8,转换完毕后,检查数据,中文终于不是乱码了,大功告成!】如果要一次性搞定不止多个数据库,也可以尝试:unicode analyze *unicode encoding set "GB18030"unicode retranslate *, transutf8这样你working directory里的所有数据库都被一次性转换完成了。如果出了问题,也没有关系。反正转换完成之后,还可以使用以下命令来恢复或者调整。unicode restore filespec 或者unicode retranslate filespec
已有 1 人评分论坛币 收起 理由
admin_kefu + 20 热心帮助其他会员

总评分: 论坛币 + 20   查看全部评分

7
caesarljs 在职认证  学生认证  发表于 2016-1-23 22:14:26
应该完美解决你的问题了
不过显示感觉有点不是很好

8
wanjun_fall2008 发表于 2016-3-1 09:21:27
set gb18030
还是解决不了,encoding list那么长,怎么办。
一个变量转换不了,整个就转换不了。

[B6X@%(CJJV_@FX9$T$@OPO.png (22.17 KB)

[B6X@%(CJJV_@FX9$T$@OPO.png

9
wanjun_fall2008 发表于 2016-3-1 09:37:46
使用了一个选项  invalid(mark),可以解决,貌似不影响。
已有 1 人评分学术水平 热心指数 收起 理由
eric张与非 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

10
zhaimulin 发表于 2016-3-1 18:54:54
wanjun_fall2008 发表于 2016-3-1 09:37
使用了一个选项  invalid(mark),可以解决,貌似不影响。
你好,我也遇到了相同的情况,说是有3个变量转换不了。请问你是怎么解决的啊?谢谢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-10 23:19