楼主: Mr.Tolerance
12751 2

[学习分享] 方法分享:R语言 乱码怎么办 [推广有奖]

  • 3关注
  • 1粉丝

大专生

63%

还不是VIP/贵宾

-

威望
0
论坛币
28 个
通用积分
3.7763
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
2139 点
帖子
48
精华
0
在线时间
57 小时
注册时间
2013-3-21
最后登录
2014-12-30

楼主
Mr.Tolerance 发表于 2014-10-9 15:13:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
#抓取信息

library(RCurl)
library(XML)

#伪装报头
myheader=c(
  "User-Agent"="Mozilla/5.0(Windows;U;Windows NT 5.1;zh-CN;rv:1.9.1.6",
  "Accept"="text/htmal,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
  "Accept-Language"="en-us",
  "Connection"="keep-alive",
  "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)

#测试单个url下的信息读取

testurl<-"http://www.fruitday.com/web/product_list/40"
temp<-getURL(testurl,httpheader=myheader,encoding="UTF-8")
k<-htmlParse(temp)  #解析网页
write.table(k,"k.txt")
#k
name.node<-getNodeSet(k,'//li[@class="cplist-p02"]/a')
style.node<-getNodeSet(k,'//li[@class="cplist-p03"]')
price.node<-getNodeSet(k,'//li[@class="cplist-p04"]')
name.node
style.node
price.node
#price<-xmlValue(price.node1[[1]])
#price
#name.node
#price<-sapply(getNodeSet(k,'//p[@class="price"]/i/text('),xmlValue)
#url.node1
#name<-xmlGetAttr(url.node[[1]],'title')
#name
#name<-xmlGetAttr(url.node1[[1]],'title')
#name
#getNodeSet(k,'//p[@class="title"]/a[@title]')
price<-c()
style<-c()
name<-c()
for (i in 1:200){
  name<-xmlValue(name.node[])
  style<-xmlValue(style.node[])
  price<-xmlValue(price.node[])
  #name<-iconv(name,"UTF-8","gbk")#解决中文正常显示问题
}
name<-iconv(name,"UTF-8","gbk")
df<-data.frame(na=name,sty=style,pr=price)
write.table(df,"tt.txt")


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 怎么办 Application connection Language Windows library 信息

沙发
DM小菜鸟 发表于 2015-1-9 20:25:40
感谢分享

藤椅
黄同学2014 发表于 2015-5-11 00:23:29
同样遇到这个问题,用了这个函数还是不行啊,不知道为什么

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 02:57