搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  citynames.dta
资料下载链接地址: https://bbs.pinggu.org/a-2304380.html
附件大小:
前段时间清理过一个数据集,发现其中城市名称的字符型变量里面包含一些“肉眼不可见”的乱码,表现为虽然字符两边有一些“空格”,但是用trim() 命令却无法删除,具体情况可以参见statalist上面的一个邮件。根据邮件上的信息,我试图采用下面的方法识别和清楚字符中的乱码

. charlist city


&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrstuwxyz?


. ret li


macros:

r(chars) : "


&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrs.."

r(sepchars) : "


&' ( ) . 0 1 ? A B C D E G H I J K L M N P .."

r(ascii) : "10 13 32 38 3940 41 46 48 49 63 65 66 67 68 69 71.."

and

replace city = subinstr(city, "`=char(10)'", "",.)

replace city = subinstr(city, "`=char(32)'", "",.)

replace city = subinstr(city, "`=char(161)'`=char(161)'","",.)



但是,最近我需要讲这个stata13格式的数据转换成stata14格式的,采用的是unicode translate命令,但是转换后发现城市名字符变成了一个个小方块,如下图。


诡异的是,即使我没有采用上面的方式清除那些 不可见的乱码,转换后仍然是同样的方块乱码,所以我不能100%确定这个问题的来源。数据样本见附件。望各位老师帮我看一下,问题出在哪里,多谢
  1. cd E:\Land_Supply\Data\clearunicode encoding set gb18030unicode analyze trans_citypanel2013.dtaunicode translate trans_citypanel2013.dta,invalidu trans_citypanel2013.dta,clear
复制代码










    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2025-12-31 14:45