R语言网络爬虫一例
今天看到隔壁Python论坛有一篇文章,介绍网络爬虫的:
Python爬虫机器人
手痒,用R语言实现如下:
# 先准备好必要的packages
library(tidyverse)
library(httr)
library(rvest)
url <- "https://www.ivsky.com/tupian/gaoguai_laoren_v55393/pic_865178.html"
# 开始了
url %>%
read_html() %>%
html_nodes("#imgis") %>%
html_attr("src") %>%
paste0("https:", .) %>%
download.file(., destfile = "D:\\out.jpg", method = "curl")
代码虽然不多,但主要的难点在于html_nodes("#imgis")
,如何在网页代码的内容中准确定位到自己想要找的内容。在本案例中,由于我们要找的网址正好前面有个id="imgis"
,所以定位比较容易,但是,在实践中,比这复杂得多的情况比比皆是,要具体情况具体分析。