楼主: falseform
1339 2

[学习分享] 今天学习了R的 XML包 用来抓网页的table但是出现乱码现象 [推广有奖]

  • 0关注
  • 0粉丝

已卖:422份资源

硕士生

30%

还不是VIP/贵宾

-

威望
0
论坛币
19000 个
通用积分
1.4873
学术水平
2 点
热心指数
0 点
信用等级
0 点
经验
4941 点
帖子
91
精华
0
在线时间
133 小时
注册时间
2017-9-19
最后登录
2019-8-15

楼主
falseform 发表于 2017-9-29 18:27:40 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
即使使用 url= htmlParse(url,encoding="UTF-8") 也存在少量乱码,同样的我用了excel的网页抓取table功能,感觉EXCEL 666啊 他是怎么做到的.
R出现乱码主要原因在于爬取网页的编码和机器的编码不一致,那EXCEL是如何克服的呢? 纯属讨论 求解决
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Table XML包 ABLE XML ABL

已有 1 人评分论坛币 收起 理由
zhuosn + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

沙发
jgchen1966 发表于 2017-9-30 11:22:37
encoding 取值不同,在不同网站是不同的,如网易用UTF-8,但新浪却用gb2313。取错,就可能出“乱码”,
  一般,在网页的源代码中前几行内标可查到。  格式如:charset=gb2312。。。

藤椅
falseform 发表于 2017-10-2 12:02:17 来自手机
jgchen1966 发表于 2017-9-30 11:22
encoding 取值不同,在不同网站是不同的,如网易用UTF-8,但新浪却用gb2313。取错,就可能出“乱码”,
   ...
我碰到一个网页表格字段是乱码,内容不是乱码,这是什么鬼

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 04:51