- 阅读权限
- 255
- 威望
- 0 级
- 论坛币
- 1555 个
- 通用积分
- 2.0000
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 766 点
- 帖子
- 75
- 精华
- 0
- 在线时间
- 142 小时
- 注册时间
- 2015-2-9
- 最后登录
- 2020-12-11
硕士生
还不是VIP/贵宾
- 威望
- 0 级
- 论坛币
 - 1555 个
- 通用积分
- 2.0000
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 766 点
- 帖子
- 75
- 精华
- 0
- 在线时间
- 142 小时
- 注册时间
- 2015-2-9
- 最后登录
- 2020-12-11
 | 开心 2020-1-9 16:17:46 |
|---|
签到天数: 7 天 连续签到: 1 天 [LV.3]偶尔看看II
|
88论坛币
|
以豆瓣网址为例https://book.douban.com/top250?icn=index-book250-all
我想爬取前25本书的书名,代码如下:
library(stringi)
library(rvest)
library(RCurl)
library(XML)
web<-read_html("https://book.douban.com/top250?icn=index-book250-all",encoding="UTF-8")
position<-web %>% html_nodes("td") %>% html_nodes("div") %>% html_nodes("a") %>% html_text()
position
出来的结果是这样:
如图,有很多斜杠,怎么才能把斜杠去掉,只留下书名呢?谢谢各位 |
|