楼主: z8938560
1111 1

[数据挖掘理论与案例] R软件爬虫问题 [推广有奖]

  • 1关注
  • 2粉丝

硕士生

13%

还不是VIP/贵宾

-

威望
0
论坛币
1555 个
通用积分
2.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
766 点
帖子
75
精华
0
在线时间
142 小时
注册时间
2015-2-9
最后登录
2020-12-11

楼主
z8938560 在职认证  发表于 2017-5-5 15:51:36 |AI写论文
88论坛币
以豆瓣网址为例https://book.douban.com/top250?icn=index-book250-all
我想爬取前25本书的书名,代码如下:
library(stringi)
library(rvest)
library(RCurl)
library(XML)
web<-read_html("https://book.douban.com/top250?icn=index-book250-all",encoding="UTF-8")
position<-web %>% html_nodes("td") %>% html_nodes("div") %>% html_nodes("a") %>% html_text()
position


出来的结果是这样:
如图,有很多斜杠,怎么才能把斜杠去掉,只留下书名呢?谢谢各位

关键词:r软件 position Library string douban position library 软件

沙发
z8938560 在职认证  发表于 2017-5-5 15:52:23
这是R出来的结果

QQ截图20170505154958.png (28.3 KB)

谢谢各位大神啦

谢谢各位大神啦

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 20:49