人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › rvest 0.3.0版本中文网页读取乱码

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

12 下一页

发帖

楼主: wyfhdl

6498 10

[问答] rvest 0.3.0版本中文网页读取乱码 [推广有奖]

5关注
15粉丝

副教授

26%

还不是VIP/贵宾

威望: 0 级
论坛币: 2514 个
通用积分: 137.8577
学术水平: 27 点
热心指数: 33 点
信用等级: 23 点
经验: 60603 点
帖子: 260
精华: 0
在线时间: 1248 小时
注册时间: 2009-12-21
最后登录: 2023-2-21

楼主

wyfhdl 发表于 2015-10-7 01:35:06 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

# # # # # # # # # # # # # # # # # PART 1 DO-NOTHING # # # # # # # # # # # # # # # # # # # # #
install.packages("rvest") # Delet after first install
install.packages("dplyr") # Delet after first install
install.packages("ggplot2") # Delet after first install
library(rvest)
library(dplyr)
library(ggplot2)
# Function scrap.f
scrap.f<-function (url) {
library(rvest)
library(dplyr)
web <- rvest::html(url,encoding="utf-8")
Headline <- web %>% html_nodes("h3 a") %>% html_text()%>%as.character()
Source <- web %>% html_nodes("p.c-author") %>% html_text() %>% as.character()
keyword <- web %>% html_nodes("em") %>% html_text()
keyword <- keyword[1:length(Headline)]%>%as.factor()
Media <- Source %>% substring(1,regexpr('[0-9]',.)-2)%>%as.factor()
a <- web %>% html_nodes("a.c-more_link") %>%html_text()%>%grep("相同新闻",.)
b <- web %>% html_nodes("a.c-more_link") %>%
html_text()%>%
substring(regexpr('[0-9]|[0-9][0-9]',.),
regexpr('[0-9]|[0-9][0-9]',.)+attr(regexpr('[0-9]|[0-9][0-9]',.),'match.length')-1)
Same_New <- vector(length=length(Headline),mode="numeric")
Same_New[a]<-b
Same_New<-Same_New %>% as.numeric()
TIME <- Source %>%　substring(regexpr('((201.{1,})|([0-9].{1,}))(前|日)',.),
regexpr('((201.{1,})|([0-9].{1,}))(前|日)',.)+
attr(regexpr('((201.{1,})|([0-9].{1,}))(前|日)',.),'match.length')-1)
TIME <- sub('[0-9].{1,}前',Sys.Date(),TIME)
TIME <- gsub('年|月','-',TIME)
TIME <- gsub('日','',TIME)
DATE <- as.Date(TIME, format = "%Y-%m-%d")
Link <- web %>% html_nodes("h3.c-title a") %>% html_attrs() %>% pluck(1,character(1))
data.frame(Headline,Media,keyword,Same_New,DATE,Link)}
# # # # # # # # # # # # # # # # # PART 2 replace the keyword as you wish # # # # # # # # # # # # # # # # # # # # #
# How mang news you want from 0 to 200, by = 20
Pages <- seq(0,200,20)
# key words, what`s in the box
Keywords <- c("%E5%A5%B6%E7%B2%89",
"%E7%BE%8E%E8%B5%9E%E8%87%A3",
"%E5%A4%9A%E7%BE%8E%E6%BB%8B",
"%E8%B4%9D%E5%9B%A0%E7%BE%8E",
"%E4%BC%8A%E5%88%A9",
"%E9%9B%85%E5%9F%B9",
"%E6%83%A0%E6%B0%8F",
"%E6%83%A0%E6%B0%8F%E5%90%AF%E8%B5%8B",
"%E5%90%88%E7%94%9F%E5%85%83",
"%E8%AF%BA%E4%BC%98%E8%83%BD",
"%E9%A3%9E%E9%B9%A4",
"%E7%88%B1%E4%BB%96%E7%BE%8E",
"%E5%8F%AF%E7%91%9E%E5%BA%B7",
"%E7%BE%8E%E7%B4%A0%E4%BD%B3%E5%84%BF")
# # # # # # # # # # # # # # # # # PART 3 copy it DO NOTHING # # # # # # # # # # # # # # # # # # # # #
Sites <- data.frame()
for (i in 1:length(Keywords)){
for (j in 1: length(Pages)){
Sites[i,j] <- paste("http://news.baidu.com/ns?word=",
Keywords[i],
"&pn",
Pages[j],
"&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0",
sep="")}}
Sites_vector <- unlist (Sites)
News <- data.frame()
for (i in 1:length(Sites_vector)){
News <- rbind(News, scrap.f(Sites_vector[i]))}
News <- News %>% distinct(Headline)
# # # # # # # # # # # # # # # # # PART 4 WHERE TO SAVE # # # # # # # # # # # # # # # # # # # # #
write.csv(News, "E:/RCase/Scrap/DailyNews/New.csv", row.names = FALSE)

复制代码

以上代码是用来抓取百度行业新闻，但是在rvest 0.3.0的版本下，即便根据新包更改了html()读取中文网页即为乱码
求指导

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Vest 中文网页 VES Est 中文网中文网页 keyword library Media

回帖推荐

jiangbeilu 发表于7楼查看完整内容

这个仔细阅读一下说明文档吧，老实说，抓取网页的函数太多了，就包都有好几个，什么Rcurl,rvest,httr,xml等等。但基本的东西都是不变的。如果同是html的话，差别应该是不大的。不像读json,xml,html，这三类函数就有差别了。

犯我华者虽远必诛

使用道具举报

沙发

wyfhdl 发表于 2015-10-7 09:26:02 |只看作者 |坛友微信交流群

顶下。。。

使用道具举报

藤椅

只会上网 发表于 2015-11-18 17:45:39 |只看作者 |坛友微信交流群

同求乱码问题

使用道具举报

板凳

jiangbeilu

发表于 2015-11-19 00:46:24 |只看作者 |坛友微信交流群

> y
[1] "鐩稿叧鐑偣"
> iconv(y,"utf-8","gbk")
[1] "相关热点"
>

复制代码

这个乱码问题不好解决，因为在设定的时候，读取比较***。
建议你用xml包试试，不需要用这么多的正则表达式。在你找到对应的中文后，再用iconv函数进行转码。
其中编码已经在函数中给出了，希望你能修改好你的代码，成功运行。

使用道具举报

报纸

jiangbeilu

发表于 2015-11-19 00:49:58 |只看作者 |坛友微信交流群

主要是你的运行结果是乱码，我不知道你具体要做什么，一堆正则表达式，现在实在是没心情看，所以不方便改你的代码或者写新的代码。

另外友情提示：html函数现在已经换成了read_html了。

使用道具举报

地板

只会上网 发表于 2015-11-19 08:55:56 |只看作者 |坛友微信交流群

jiangbeilu 发表于 2015-11-19 00:49
主要是你的运行结果是乱码，我不知道你具体要做什么，一堆正则表达式，现在实在是没心情看，所以不方便改你 ...

想问一下 read_html 和 html_session 有什么不同

使用道具举报

7楼

jiangbeilu

发表于 2015-11-19 11:07:33 |只看作者 |坛友微信交流群

只会上网发表于 2015-11-19 08:55
想问一下 read_html 和 html_session 有什么不同

这个仔细阅读一下说明文档吧，老实说，抓取网页的函数太多了，就包都有好几个，什么Rcurl,rvest,httr,xml等等。但基本的东西都是不变的。如果同是html的话，差别应该是不大的。

不像读json,xml,html，这三类函数就有差别了。

已有 1 人评分	经验	收起理由
李会超	+ 80	热心帮助其他会员

总评分: 经验 + 80 查看全部评分

使用道具举报

8楼

wyfhdl 发表于 2015-11-21 16:41:58 |只看作者 |坛友微信交流群

只会上网发表于 2015-11-18 17:45
同求乱码问题

如果你不用rvest0.3.0的话，可以把包降级到0.2.0

使用道具举报

9楼

wyfhdl 发表于 2015-12-22 01:25:35 |只看作者 |坛友微信交流群

jiangbeilu 发表于 2015-11-19 11:07
这个仔细阅读一下说明文档吧，老实说，抓取网页的函数太多了，就包都有好几个，什么Rcurl,rvest,httr,xml ...

url <- "http://news.baidu.com/ns?word=%E5%A5%B6%E7%B2%89&pn=20&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0"
web <- read_html(url, encoding = "utf-8")
Source <- web %>% html_nodes("p.c-author") %>% html_text() %>%
iconv("utf-8") %>% as.character()

复制代码

在用rvest 0.3.0的包版本，我尝试用iconv来转码，但是在source这一段里面遇到问题，本意是抓取百度新闻中，公布的媒体名称，但是在用html_text()后出现了所有都是NA的情况，请教这是为什么

使用道具举报

10楼

jiangbeilu

发表于 2015-12-22 08:20:07 |只看作者 |坛友微信交流群

wyfhdl 发表于 2015-12-22 01:25
在用rvest 0.3.0的包版本，我尝试用iconv来转码，但是在source这一段里面遇到问题，本意是抓取百度新闻 ...

我在linux下可以正常读入。估计是你的iconv用法有问题。你看试一下代码跟我的一样，结果是不是一样的。如果不一样的话，就需要再看一下iconv的用法了，我记得不是这样用的。
Screenshot from 2015-12-22 08:17:38.png

Tomorrow is another day!

使用道具举报

返回列表

12 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] rvest 0.3.0版本中文网页读取乱码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

回帖推荐

初级热心勋章

中级热心勋章

初级信用勋章

初级学术勋章

中级信用勋章

高级热心勋章

本版微信群

[问答] rvest 0.3.0版本 中文网页读取乱码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

回帖推荐

初级热心勋章

中级热心勋章

初级信用勋章

初级学术勋章

中级信用勋章

高级热心勋章

本版微信群

[问答] rvest 0.3.0版本中文网页读取乱码 [推广有奖]

扫码加我拉你入群