人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › htmlTreeParse 出现乱码

发帖

楼主: 小朝

4936 2

[问答] htmlTreeParse 出现乱码 [推广有奖]

0关注
3粉丝

已卖：1304份资源

副教授

还不是VIP/贵宾

TA的文库 其他...

数据分析师

威望: 0 级
论坛币: 3698 个
通用积分: 650.8768
学术水平: 26 点
热心指数: 47 点
信用等级: 31 点
经验: 69641 点
帖子: 514
精华: 0
在线时间: 821 小时
注册时间: 2007-11-2
最后登录: 2025-8-3

楼主

小朝 发表于 2014-11-5 23:03:16 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

library(bitops)
library(RCurl)
library(XML)
library(plyr)
testurl<-"http://data.10jqka.com.cn/market/longhu/yyb/"
temp<-getURL(testurl,.encoding="gbk") #这步没有出现乱码

复制代码

有哪位大神知道如何解决，造成的原因是什么？也百度了很多，也没找到原因。
解决方法：
temp<-getURL(testurl,.encoding="gbk")
t2<-iconv(temp,"gbk","utf-8") #转码
pagetree<-htmlTreeParse(t2,asText=TRUE,useInternalNodes=TRUE,encoding="utf-8") #这步有乱码
temp_name <-xpathSApply(pagetree,"//tr/td[@class='tl']/a", xmlValue) #无乱码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：HTML Tree EPA ARS htm library

相关帖子

幽灵之目：小视野里的小问题。

沙发

xucaifeng66 发表于 2014-11-6 10:03:47

temp<-getURL(testurl)
直接试试这个，或者通过分割进行分析strsplit()

其实这也不叫乱码吧，你只要提取对你有用的信息就行了

藤椅

一路嘿嘿 发表于 2014-11-6 16:38:07

htmlTreeParse中的encoding参数个人认为没用，帮助文档中说的是如果html源码中没有指定指定编码方式，encoding这个参数才有用，谁做web开发不指定编码方式呢。

解决方法是得到web页面内容后，有乱码不要管，用getNodeSet或者readHtmlTable得到结果后，再
iconv(x,"utf-8","")转化一个编码应该就行了

另外这是windows下才会出现的问题，linux下应该不会出现这种情况

已有 1 人评分	热心指数	收起理由
小朝	+ 1	好的意见建议

总评分: 热心指数 + 1 查看全部评分

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] htmlTreeParse 出现乱码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] htmlTreeParse 出现乱码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群