请选择 进入手机版 | 继续访问电脑版
楼主: 小小的我哦
13913 10

[一般统计问题] 用stata导入文本数据时出现乱码情况 [推广有奖]

  • 3关注
  • 0粉丝

硕士生

11%

还不是VIP/贵宾

-

威望
0
论坛币
267 个
通用积分
13.0058
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
18754 点
帖子
72
精华
0
在线时间
143 小时
注册时间
2019-7-4
最后登录
2022-4-27

小小的我哦 发表于 2019-8-21 17:47:31 来自手机 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人在用stata导入一些文本数据时出现了乱码情况,请问这种问题该怎么解决呢?谢谢大佬们
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata 文本数据 tata

回帖推荐

蓝色 发表于10楼  查看完整内容

acs495628 发表于7楼  查看完整内容

这是由于stata14的默认编码为 Unicode(统一码、万国码),而你要导入的文件编码为中文编码格式gb18030,所以在使用stata14导入的时候需要进行转码。 不懂转码请参考https://bbs.pinggu.org/thread-4169938-1-1.html
蓝色 发表于 2019-8-21 17:58:18 |显示全部楼层 |坛友微信交流群
你这样问
不知道怎么解决

使用道具

小小的我哦 发表于 2019-8-21 19:45:26 来自手机 |显示全部楼层 |坛友微信交流群
蓝色 发表于 2019-8-21 17:58
你这样问
不知道怎么解决
首先感谢您的回复。就是有一个文本文件,里面有字符型变量比如国家。然后我用的是stata14版本,用insheet导入这个有字符型变量的.txt文件时,这个字符型变量内容就乱码,不是具体的汉字。不知道我这样说您能否明白。

使用道具

蓝色 发表于 2019-8-21 21:00:34 |显示全部楼层 |坛友微信交流群

使用道具

汇通天下 发表于 2019-8-21 21:09:35 来自手机 |显示全部楼层 |坛友微信交流群
小小的我哦 发表于 2019-8-21 19:45
首先感谢您的回复。就是有一个文本文件,里面有字符型变量比如国家。然后我用的是stata14版本,用insheet ...
您好,可以使用infile函数导入数据试一下,infile str# v1 int v2 int v3 using *.txt 指定字符变量格式

使用道具

蓝色 发表于 2019-8-21 21:00
https://bbs.pinggu.org/thread-5048204-1-1.html
您好,这是那个文本文件,然后我用stata14导入进去location变量内容就乱码了,如图片所示。代码是insheet using d203.txt,clear。您看这种情况该怎么解决呢?万分感谢。
001.png

d203.txt

169 Bytes

使用道具

acs495628 发表于 2019-8-22 11:43:11 |显示全部楼层 |坛友微信交流群
这是由于stata14的默认编码为 Unicode(统一码、万国码),而你要导入的文件编码为中文编码格式gb18030,所以在使用stata14导入的时候需要进行转码。
  1. unicode encoding set gb18030
  2. unicode analyze *
  3. unicode translate *
复制代码

不懂转码请参考https://bbs.pinggu.org/thread-4169938-1-1.html

使用道具

汇通天下 发表于 2019-8-21 21:09
您好,可以使用infile函数导入数据试一下,infile str# v1 int v2 int v3 using *.txt 指定字符变量格式
您好,不行哦,那个文本文件我上传了(在对昵称为蓝色的大佬回复中),还在审核中,等您看到后麻烦您看一下用您所说的方法导进去看有没有问题,万分感谢。

使用道具

acs495628 发表于 2019-8-22 11:43
这是由于stata14的默认编码为 Unicode(统一码、万国码),而你要导入的文件编码为中文编码格式gb18030,所 ...
谢谢大佬

使用道具

蓝色 发表于 2019-8-22 13:10:17 |显示全部楼层 |坛友微信交流群
小小的我哦 发表于 2019-8-22 11:35
您好,这是那个文本文件,然后我用stata14导入进去location变量内容就乱码了,如图片所示。代码是insheet  ...
  1. import delimited "C:\temp\d203.txt", encoding(gb18030)  clear
  2. list
复制代码
  1. . import delimited "C:\temp\d203.txt", encoding(gb18030)  clear
  2. (3 vars, 5 obs)

  3. . list

  4.      +------------------------------------+
  5.      |     date     sic          location |
  6.      |------------------------------------|
  7.   1. | 20010123     A01       湖北   荆州 |
  8.   2. | 20021231   A0599       陕西   西安 |
  9.   3. | 20030922   C0501       广东   广州 |
  10.   4. | 20040101     C11     河北   石家庄 |
  11.   5. | 20050630   C4310   内蒙古 呼和浩特 |
  12.      +------------------------------------+
复制代码
已有 2 人评分学术水平 热心指数 收起 理由
洋ohoh + 1 + 1 精彩帖子
◇Xiaoぷ锋 + 1 + 1 观点有启发

总评分: 学术水平 + 2  热心指数 + 2   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 17:45