楼主: tylerma3223
1432 3

[程序分享] R语言爬虫遇到错误 [推广有奖]

  • 0关注
  • 16粉丝

教授

3%

还不是VIP/贵宾

-

威望
1
论坛币
218852 个
通用积分
5.4752
学术水平
42 点
热心指数
72 点
信用等级
44 点
经验
19878 点
帖子
514
精华
0
在线时间
925 小时
注册时间
2013-1-28
最后登录
2023-11-29

50论坛币
我的原计划是把http://www.cbalicai.com/productTotal.html上面的理财产品爬下来。
http://www.cbalicai.com/productTotal.html
网上找的一段可行的代码:
  1. library(rvest)
  2. words <- read_html("http://xh.5156edu.com/ciyu/z4998m5241j1770.html",encoding = 'gbk')
  3. v2 <- html_table(html_nodes(words, "table"),fill = TRUE)[[8]]
  4. v2
复制代码
按它的操作一遍,果然得到一个数据表格
于是,我模仿它写了一段自己的代码,可是为什么我得到的结果是“list()” 没资料啊没资料。求高手指点。
  1. words <- read_html("http://www.cbalicai.com/productTotal.html",encoding = "UTF-8")
  2. v2 <- html_table(html_nodes(words, "table"),fill = TRUE)
  3. v2
复制代码

关键词:R语言 Product Library produc Total

回帖推荐

小朝 发表于2楼  查看完整内容

跟网页加载方式有关,所以要用真实的表格网址 http://www.cbalicai.com/producttoIndex.do?page.pageNo=1 末尾是1代表第1页
沙发
小朝 发表于 2017-8-18 10:41:39 |只看作者 |坛友微信交流群
跟网页加载方式有关,所以要用真实的表格网址
http://www.cbalicai.com/producttoIndex.do?page.pageNo=1
末尾是1代表第1页
  1. library(rvest)
  2. words <- read_html("http://www.cbalicai.com/producttoIndex.do?page.pageNo=1",encoding = "UTF-8")
  3. v2 <- words %>% html_nodes("table") %>% html_table() %>% data.frame()
  4. v2
复制代码

使用道具

藤椅
tylerma3223 学生认证  发表于 2017-8-22 13:37:42 |只看作者 |坛友微信交流群
小朝 发表于 2017-8-18 10:41
跟网页加载方式有关,所以要用真实的表格网址
http://www.cbalicai.com/producttoIndex.do?page.pageNo=1
...
您的答案太棒了!再多问一句,我想做个循环,把这些都弄下来。能不能自动获取它的最大页码?
  1. library(rvest)

  2. maxp <- 2

  3. for (i in 1:maxp){
  4.   webstr <- "http://www.cbalicai.com/producttoIndex.do?page.pageNo=" + i
  5.   words <- read_html(webstr,encoding = "UTF-8")
  6.   v2 <- words %>% html_nodes("table") %>% html_table() %>% data.frame()
  7. }
复制代码

使用道具

板凳
jgchen1966 发表于 2017-8-22 14:32:23 |只看作者 |坛友微信交流群
tylerma3223 发表于 2017-8-22 13:37
您的答案太棒了!再多问一句,我想做个循环,把这些都弄下来。能不能自动获取它的最大页码?
这要试,或与网站联系,是否允许大批量下载。。例如,新浪网上的历史交易数据,下载几支股票是可以的,但全部股票下载,就会被阻止,出现: "HTTP error 456."  错误提醒.

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 15:14