请选择 进入手机版 | 继续访问电脑版
楼主: sxlxlx
2588 5

[问答] R语言读取国泰安txt数据,unicoding编码 [推广有奖]

  • 1关注
  • 0粉丝

硕士生

26%

还不是VIP/贵宾

-

威望
0
论坛币
138 个
通用积分
22.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2858 点
帖子
79
精华
0
在线时间
162 小时
注册时间
2012-3-12
最后登录
2022-8-17

sxlxlx 学生认证  发表于 2017-11-15 13:37:03 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我在国泰安下载的txt数据编码是Uncoding格式的,但是Rstudio不支持读入这种格式啊,如果数据文件很多难道要一个一个转码么?求大神指导
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Coding DING R语言 ODI NIC

jiangbeilu 学生认证  发表于 2017-11-15 21:25:29 |显示全部楼层 |坛友微信交流群
读入txt文件的时候,可以试试encoding参数多设置几次,看看哪个是合理的。
另外,国泰安数据应该是可以导出csv文件的,应该还比较好处理。
如果还不行,就用iconv转码吧,不过第一步应该可以搞定。

使用道具

sxlxlx 学生认证  发表于 2017-11-16 15:02:32 |显示全部楼层 |坛友微信交流群
jiangbeilu 发表于 2017-11-15 21:25
读入txt文件的时候,可以试试encoding参数多设置几次,看看哪个是合理的。
另外,国泰安数据应该是可以导出 ...
encoding还是有问题,麻烦您帮我看看?我把数据传上来

使用道具

sxlxlx 学生认证  发表于 2017-11-16 15:22:56 |显示全部楼层 |坛友微信交流群
这是下载的三种格式的数据:txt、csv和文本格式创建R数据txt,内容一样,文本格式创建R数据txt说让把文件转码,但是有时候另存为UTF-8格式后最后面的很多行数据会乱码。目前就是csv-另存为txt才能读入
文本格式创建R数据(_.txt).zip (5.02 MB) 本附件包括:
  • TRD_Dalyr.txt
  • TRD_Dalyr[DES][txt].txt
  • TRD_Dalyr[R].txt
  • 版权声明.pdf

TXT文本格式(.txt)推荐.zip (5.02 MB) 本附件包括:
  • TRD_Dalyr.txt
  • TRD_Dalyr[DES][txt].txt
  • 版权声明.pdf

下图是直接读csv的报错
微信截图_20171116151113.png

使用道具

sxlxlx 学生认证  发表于 2017-11-16 15:24:28 |显示全部楼层 |坛友微信交流群
csv传不上来,总说已经传到论坛

使用道具

jiangbeilu 学生认证  发表于 2017-11-17 13:05:23 |显示全部楼层 |坛友微信交流群
sxlxlx 发表于 2017-11-16 15:24
csv传不上来,总说已经传到论坛
设置一下读取的参数就可以了,用notpad++查看该txt文件的字符编码为:UCS-2LE
然后在read.table里面的fileEncoding设置一下即可:
  1. > test <- read.table("TRD_Dalyr.txt",header=TRUE,fileEncoding='UCS-2LE')
  2. > head(test)
  3.   Stkcd      Trddt Opnprc Hiprc Loprc Clsprc Dnshrtrd Dnvaltrd Dsmvosd Dsmvtll    Dretwd
  4. 1     1 1991-04-03  49.00 49.00 49.00  49.00      100     5000 1298500 2376508  0.225000
  5. 2     1 1991-04-04  48.76 48.76 48.76  48.76      300    15000 1292140 2364868 -0.004898
  6. 3     1 1991-04-05  48.52 48.52 48.52  48.52      200    10000 1285780 2353228 -0.004922
  7. 4     1 1991-04-06  48.28 48.28 48.28  48.28      700    34000 1279420 2341588 -0.004946
  8. 5     1 1991-04-08  48.04 48.04 48.04  48.04      200    10000 1273060 2329948 -0.004971
  9. 6     1 1991-04-09  47.80 47.80 47.80  47.80      400    19000 1266700 2318308 -0.004996
  10.      Dretnd Adjprcwd Adjprcnd Markettype   Capchgdt Trdsta
  11. 1  0.225000    49.00    49.00          4 1991-04-03      1
  12. 2 -0.004898    48.76    48.76          4 1991-04-03      1
  13. 3 -0.004922    48.52    48.52          4 1991-04-03      1
  14. 4 -0.004946    48.28    48.28          4 1991-04-03      1
  15. 5 -0.004971    48.04    48.04          4 1991-04-03      1
  16. 6 -0.004996    47.80    47.80          4 1991-04-03      1
复制代码

已有 1 人评分论坛币 学术水平 热心指数 收起 理由
cheetahfly + 50 + 2 + 2 精彩帖子

总评分: 论坛币 + 50  学术水平 + 2  热心指数 + 2   查看全部评分

Tomorrow is another day!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 16:42