4462 5

[问答] 有谁会用R抓取这个网页表格么?看起来很简单可是。。。 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

大专生

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
160 点
帖子
18
精华
0
在线时间
91 小时
注册时间
2015-12-3
最后登录
2019-6-28

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
网址:http://xh.5156edu.com/ciyu/z4998m5241j1770.html
怎样才能如抓取出这个词语表格呢?哪位大神懂得R的网络爬虫,让我们开开眼界,好么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:看起来 HTML 网络爬虫 HTTP COM 网页

我用了RCurl
url = "http://xh.5156edu.com/ciyu/z4998m5241j1770.html"
wp <- getURL(url)
doc <- htmlParse(wp,asText = TRUE)
tables <- readHTMLTable(doc)
可是并不成功,提示
Error in nchar(els[[1]]) : invalid multibyte string, element 1
据说内码错误还是冲突

使用道具


我用了RCurl

wp <- getURL(url)
doc <- htmlParse(wp,asText = TRUE)
tables <- readHTMLTable(doc)
可是并不成功,提示
Error in nchar(els[[1]]) : invalid multibyte string, element 1
据说内码错误还是冲突

使用道具

板凳
明建川 发表于 2016-8-31 09:02:32 |只看作者 |坛友微信交流群
library(rvest)
words <- read_html("http://xh.5156edu.com/ciyu/z4998m5241j1770.html",encoding = 'gbk')
html_table(html_nodes(words, "table"),fill = TRUE)[[7]] 941D.tmp.jpg

使用道具

明建川 发表于 2016-8-31 09:02
library(rvest)
words
哇哇,好厉害诶,完美解决,开眼界了

使用道具

地板
wvb9966 发表于 2018-8-30 22:37:43 |只看作者 |坛友微信交流群
明建川 发表于 2016-8-31 09:02
library(rvest)
words
我也学到了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 07:48