人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R爬虫示例（小白练手）

返回列表

12 下一页

发帖

楼主: Rocky_xin

3120 10

[学习分享] R爬虫示例（小白练手） [推广有奖]

0关注
3粉丝

已卖：18份资源

大专生

还不是VIP/贵宾

威望: 0 级
论坛币: 162 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 451 点
帖子: 25
精华: 0
在线时间: 41 小时
注册时间: 2015-11-30
最后登录: 2022-8-30

楼主

Rocky_xin 发表于 2017-5-19 17:49:53 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

楼主用rvest包爬取了BOSS直聘网站，关于数据分析的职位信息，权当练手，详见二楼。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏10 回帖

关键词：BOSS 数据分析 Vest VES Est 网站信息职位

相关帖子

沙发

Rocky_xin 发表于 2017-5-19 17:50:29

文章内容，详见个人博客：http://www.rockyxin.com/?p=215

藤椅

Rocky_xin 发表于 2017-5-19 17:55:03

附件为源代码及爬取后数据

R爬虫小白实例教程-源代码及爬取后数据.zip
下载链接: https://bbs.pinggu.org/a-2254760.html

16.61 KB

板凳

alvin2 发表于 2017-5-19 18:07:14

好厉害，路过顶顶

报纸

beijin2008 发表于 2017-5-20 10:39:10

谢谢分享

地板

line_us 发表于 2017-5-20 11:11:42

支持分享

7楼

zhou1_20 发表于 2017-5-20 16:55:10

你的代码太麻烦了，感觉你应该是从python阵营转过来的。我今天也编写了一个，比你的简单些

library(rvest)
library(stringr)
site1 <- 'https://www.zhipin.com/c101280600-p100104/?page=%s&ka=page-%s'
salary=job=adr=ed=exper=demand=HR_name=
HR_job=com_name=hangye=guimo=ziben=date=NULL
for(i in 1:10){
site <- sprintf(site1,i,i)
web <- read_html(site)
salary <-c(salary,web%>%html_nodes('.info-primary>.name')%>%html_text()%>%
str_extract('\\d{1,}K-\\d{1,}K'))
job <- c(job,web%>%html_nodes('.info-primary>.name')%>%html_text()%>%
str_replace('\\d{1,}K-\\d{1,}K','')%>%str_trim())
tt1=web%>%html_nodes('.info-primary>p')%>%html_text()
tt12=str_split(tt1,'\\d-\\d{1,}年|经验不限|1年以内')
n=length(tt12)
adr1=ed1=rep(NA,n)
for(i in 1:n) {
adr1[i]=tt12[[i]][1]
ed1[i]=tt12[[i]][2]
}
exper1=str_extract(tt1,'\\d-\\d{1,}年|经验不限|1年以内')
adr=c(adr,adr1);ed=c(ed,ed1);exper=c(exper,exper1)
demand1=web%>%
html_nodes('.job-list > ul:nth-child(2) > li> a:nth-child(1) >
div> span')
nn=which(str_length(demand1)>22)
ndemand = length(which(str_length(demand1)>22))
demand2= demand1[1:(nn[1]-1)]%>%html_text()%>%str_c(collapse=' ')
for(i in 2:ndemand) demand2 = c(demand2,
demand1[(nn[i-1]+1):(nn[i]-1)]%>%html_text()%>%
str_c(collapse=' '))
demand = c(demand,demand2)
tt3=web%>%html_nodes('.job-author>p')
HR_name=c(HR_name,as.character(tt3)%>%str_extract('p>[\\s\\S]*<em')%>%
str_sub(3,-4))
HR_job=c(HR_job,as.character(tt3)%>%str_extract('em>[\\s\\S]*<img')%>%
str_sub(4,-5))
com_name = c(com_name,web%>%html_nodes('.company-text>h3')%>%html_text()%>%
str_trim())
com_ifo = web%>%html_nodes('.company-text>p')%>%as.character()%>%
str_split('<em class=\"vline\"></em>')
ncom_ifo = length(com_ifo)
hangye1 = ziben1 = guimo1 =rep(NA,ncom_ifo)
for(i in 1:ncom_ifo){
hangye1[i] = com_ifo[[i]][1]%>%str_sub(4,-1)
guimo1[i] = com_ifo[[i]][length(com_ifo[[i]])]%>%str_sub(0,-5)
ziben1[i] = ifelse(length(com_ifo[[i]])==2,
NA,com_ifo[[i]][2])
}
hangye = c(hangye,hangye1);guimo=c(guimo,guimo1);ziben=c(ziben,ziben1)
}
data=data.frame(公司=com_name,职位=job,薪资=salary,学历=ed,经验=exper,要求=demand,
地点=adr,HR姓名=HR_name,HR职位=HR_job,行业=hangye,类型=ziben,
规模=guimo)
DT::datatable(data)

复制代码

已有 1 人评分	学术水平	热心指数	收起理由
ryoeng	+ 1	+ 1	热心帮助其他会员

总评分: 学术水平 + 1 热心指数 + 1 查看全部评分

8楼

Rocky_xin 发表于 2017-5-20 22:00:33

zhou1_20 发表于 2017-5-20 16:55
你的代码太麻烦了，感觉你应该是从python阵营转过来的。我今天也编写了一个，比你的简单些

谢谢，小白初学R，之前没学过Python，看了你的代码，确实比我的简练很多，学习了。

想请问，第5-6行的作用是什么？

9楼

zhou1_20 发表于 2017-5-20 23:56:19 来自手机

Rocky_xin 发表于 2017-5-20 22:00
谢谢，小白初学R，之前没学过Python，看了你的代码，确实比我的简练很多，学习了。

想请问，第5-6行的 ...

你的编程功底很好呀

10楼

Rocky_xin 发表于 2017-5-21 16:00:45

zhou1_20 发表于 2017-5-20 23:56
你的编程功底很好呀

别讽刺我了，哪有什么功底，才刚学

返回列表

12 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学习分享] R爬虫示例（小白练手） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学习分享] R爬虫示例（小白练手） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群