楼主: 小朝
4872 2

[问答] htmlTreeParse 出现乱码 [推广有奖]

  • 0关注
  • 3粉丝

已卖:1304份资源

副教授

8%

还不是VIP/贵宾

-

TA的文库  其他...

数据分析师

威望
0
论坛币
3698 个
通用积分
650.8768
学术水平
26 点
热心指数
47 点
信用等级
31 点
经验
69641 点
帖子
514
精华
0
在线时间
821 小时
注册时间
2007-11-2
最后登录
2025-8-3

楼主
小朝 发表于 2014-11-5 23:03:16 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. library(bitops)
  2. library(RCurl)
  3. library(XML)
  4. library(plyr)
  5. testurl<-"http://data.10jqka.com.cn/market/longhu/yyb/"
  6. temp<-getURL(testurl,.encoding="gbk")  #这步没有出现乱码
复制代码
有哪位大神知道如何解决,造成的原因是什么?也百度了很多,也没找到原因。
解决方法:
temp<-getURL(testurl,.encoding="gbk")
t2<-iconv(temp,"gbk","utf-8")  #转码
pagetree<-htmlTreeParse(t2,asText=TRUE,useInternalNodes=TRUE,encoding="utf-8") #这步有乱码
temp_name <-xpathSApply(pagetree,"//tr/td[@class='tl']/a", xmlValue)  #无乱码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:HTML Tree EPA ARS htm library

幽灵之目:小视野里的小问题。

沙发
xucaifeng66 发表于 2014-11-6 10:03:47
temp<-getURL(testurl)
直接试试这个,或者通过分割进行分析strsplit()


其实这也不叫乱码吧,你只要提取对你有用的信息就行了

藤椅
一路嘿嘿 发表于 2014-11-6 16:38:07
htmlTreeParse中的encoding参数个人认为没用,帮助文档中说的是如果html源码中没有指定指定编码方式,encoding这个参数才有用,谁做web开发不指定编码方式呢。

解决方法是得到web页面内容后,有乱码不要管,用getNodeSet或者readHtmlTable得到结果后,再
iconv(x,"utf-8","")转化一个编码应该就行了

另外这是windows下才会出现的问题,linux下应该不会出现这种情况
已有 1 人评分热心指数 收起 理由
小朝 + 1 好的意见建议

总评分: 热心指数 + 1   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-3 13:18