4695 5

[问答] 有谁会用R抓取这个网页表格么?看起来很简单可是。。。 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

大专生

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
160 点
帖子
18
精华
0
在线时间
91 小时
注册时间
2015-12-3
最后登录
2019-6-28

楼主
该用户名不得 发表于 2016-8-29 20:13:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
网址:http://xh.5156edu.com/ciyu/z4998m5241j1770.html
怎样才能如抓取出这个词语表格呢?哪位大神懂得R的网络爬虫,让我们开开眼界,好么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:看起来 HTML 网络爬虫 HTTP COM 网页

沙发
该用户名不得 发表于 2016-8-29 20:14:54
我用了RCurl
url = "http://xh.5156edu.com/ciyu/z4998m5241j1770.html"
wp <- getURL(url)
doc <- htmlParse(wp,asText = TRUE)
tables <- readHTMLTable(doc)
可是并不成功,提示
Error in nchar(els[[1]]) : invalid multibyte string, element 1
据说内码错误还是冲突

藤椅
该用户名不得 发表于 2016-8-29 20:16:45

我用了RCurl

wp <- getURL(url)
doc <- htmlParse(wp,asText = TRUE)
tables <- readHTMLTable(doc)
可是并不成功,提示
Error in nchar(els[[1]]) : invalid multibyte string, element 1
据说内码错误还是冲突

板凳
明建川 发表于 2016-8-31 09:02:32
library(rvest)
words <- read_html("http://xh.5156edu.com/ciyu/z4998m5241j1770.html",encoding = 'gbk')
html_table(html_nodes(words, "table"),fill = TRUE)[[7]] 941D.tmp.jpg

报纸
该用户名不得 发表于 2016-8-31 21:20:43
明建川 发表于 2016-8-31 09:02
library(rvest)
words
哇哇,好厉害诶,完美解决,开眼界了

地板
wvb9966 发表于 2018-8-30 22:37:43
明建川 发表于 2016-8-31 09:02
library(rvest)
words
我也学到了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-8 23:21