楼主: cheetahfly
993 1

[程序分享] R语言网络爬虫一列 [推广有奖]

  • 2关注
  • 71粉丝

版主

院士

5%

还不是VIP/贵宾

-

威望
0
论坛币
58591 个
通用积分
1374.5409
学术水平
480 点
热心指数
587 点
信用等级
328 点
经验
126326 点
帖子
2063
精华
1
在线时间
3765 小时
注册时间
2010-10-27
最后登录
2024-4-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

R语言网络爬虫一例

今天看到隔壁Python论坛有一篇文章,介绍网络爬虫的:
Python爬虫机器人

手痒,用R语言实现如下:

# 先准备好必要的packages
library(tidyverse)
library(httr)
library(rvest)

url <- "https://www.ivsky.com/tupian/gaoguai_laoren_v55393/pic_865178.html"

# 开始了
url %>%
    read_html() %>%
    html_nodes("#imgis") %>%
    html_attr("src") %>%
    paste0("https:", .) %>%
    download.file(., destfile = "D:\\out.jpg", method = "curl")

代码虽然不多,但主要的难点在于html_nodes("#imgis"),如何在网页代码的内容中准确定位到自己想要找的内容。在本案例中,由于我们要找的网址正好前面有个id="imgis",所以定位比较容易,但是,在实践中,比这复杂得多的情况比比皆是,要具体情况具体分析。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:网络爬虫 R语言 Packages download python爬虫

沙发
skyfx 发表于 2019-11-8 11:26:55 |只看作者 |坛友微信交流群
擅用chrome的开发者模式,基本没什么问题。
另,爬虫还是用py写吧,当心被封。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 15:22