楼主: Rocky_xin
3103 10

[学习分享] R爬虫示例(小白练手) [推广有奖]

  • 0关注
  • 3粉丝

已卖:18份资源

大专生

8%

还不是VIP/贵宾

-

威望
0
论坛币
162 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
451 点
帖子
25
精华
0
在线时间
41 小时
注册时间
2015-11-30
最后登录
2022-8-30

楼主
Rocky_xin 发表于 2017-5-19 17:49:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
楼主用rvest包爬取了BOSS直聘网站,关于数据分析的职位信息,权当练手,详见二楼。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:BOSS 数据分析 Vest VES Est 网站 信息 职位

沙发
Rocky_xin 发表于 2017-5-19 17:50:29

文章内容,详见个人博客:http://www.rockyxin.com/?p=215


藤椅
Rocky_xin 发表于 2017-5-19 17:55:03
附件为源代码及爬取后数据

板凳
alvin2 发表于 2017-5-19 18:07:14
好厉害,路过顶顶

报纸
beijin2008 发表于 2017-5-20 10:39:10
谢谢分享

地板
line_us 发表于 2017-5-20 11:11:42
支持分享

7
zhou1_20 发表于 2017-5-20 16:55:10
你的代码太麻烦了,感觉你应该是从python阵营转过来的。我今天也编写了一个,比你的简单些
  1. library(rvest)
  2. library(stringr)

  3. site1 <- 'https://www.zhipin.com/c101280600-p100104/?page=%s&ka=page-%s'
  4. salary=job=adr=ed=exper=demand=HR_name=
  5.   HR_job=com_name=hangye=guimo=ziben=date=NULL

  6. for(i in 1:10){
  7.   site <- sprintf(site1,i,i)
  8.   web <- read_html(site)
  9.   salary <-c(salary,web%>%html_nodes('.info-primary>.name')%>%html_text()%>%
  10.     str_extract('\\d{1,}K-\\d{1,}K'))
  11.   job <- c(job,web%>%html_nodes('.info-primary>.name')%>%html_text()%>%
  12.     str_replace('\\d{1,}K-\\d{1,}K','')%>%str_trim())
  13.   tt1=web%>%html_nodes('.info-primary>p')%>%html_text()
  14.   tt12=str_split(tt1,'\\d-\\d{1,}年|经验不限|1年以内')
  15.   n=length(tt12)
  16.   adr1=ed1=rep(NA,n)
  17.   for(i in 1:n) {
  18.     adr1[i]=tt12[[i]][1]
  19.     ed1[i]=tt12[[i]][2]
  20.   }
  21.   exper1=str_extract(tt1,'\\d-\\d{1,}年|经验不限|1年以内')
  22.   adr=c(adr,adr1);ed=c(ed,ed1);exper=c(exper,exper1)
  23.   
  24.   demand1=web%>%
  25.     html_nodes('.job-list > ul:nth-child(2) > li> a:nth-child(1) >
  26.                div> span')
  27.   nn=which(str_length(demand1)>22)
  28.   ndemand = length(which(str_length(demand1)>22))
  29.   demand2= demand1[1:(nn[1]-1)]%>%html_text()%>%str_c(collapse=' ')
  30.   for(i in 2:ndemand) demand2 = c(demand2,
  31.                                  demand1[(nn[i-1]+1):(nn[i]-1)]%>%html_text()%>%
  32.                                    str_c(collapse=' '))
  33.   demand = c(demand,demand2)
  34.   
  35.   tt3=web%>%html_nodes('.job-author>p')
  36.   HR_name=c(HR_name,as.character(tt3)%>%str_extract('p>[\\s\\S]*<em')%>%
  37.               str_sub(3,-4))
  38.   HR_job=c(HR_job,as.character(tt3)%>%str_extract('em>[\\s\\S]*<img')%>%
  39.              str_sub(4,-5))
  40.   
  41.   com_name = c(com_name,web%>%html_nodes('.company-text>h3')%>%html_text()%>%
  42.                  str_trim())
  43.   com_ifo = web%>%html_nodes('.company-text>p')%>%as.character()%>%
  44.     str_split('<em class=\"vline\"></em>')
  45.   
  46.   ncom_ifo = length(com_ifo)
  47.   hangye1 = ziben1 = guimo1 =rep(NA,ncom_ifo)
  48.   for(i in 1:ncom_ifo){
  49.     hangye1[i] = com_ifo[[i]][1]%>%str_sub(4,-1)
  50.     guimo1[i] = com_ifo[[i]][length(com_ifo[[i]])]%>%str_sub(0,-5)
  51.     ziben1[i] = ifelse(length(com_ifo[[i]])==2,
  52.                        NA,com_ifo[[i]][2])
  53.   }
  54.   hangye = c(hangye,hangye1);guimo=c(guimo,guimo1);ziben=c(ziben,ziben1)
  55. }


  56. data=data.frame(公司=com_name,职位=job,薪资=salary,学历=ed,经验=exper,要求=demand,
  57.                 地点=adr,HR姓名=HR_name,HR职位=HR_job,行业=hangye,类型=ziben,
  58.                 规模=guimo)
  59.   
  60. DT::datatable(data)
复制代码




已有 1 人评分学术水平 热心指数 收起 理由
ryoeng + 1 + 1 热心帮助其他会员

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

8
Rocky_xin 发表于 2017-5-20 22:00:33
zhou1_20 发表于 2017-5-20 16:55
你的代码太麻烦了,感觉你应该是从python阵营转过来的。我今天也编写了一个,比你的简单些
谢谢,小白初学R,之前没学过Python,看了你的代码,确实比我的简练很多,学习了。

想请问,第5-6行的作用是什么?

9
zhou1_20 发表于 2017-5-20 23:56:19 来自手机
Rocky_xin 发表于 2017-5-20 22:00
谢谢,小白初学R,之前没学过Python,看了你的代码,确实比我的简练很多,学习了。

想请问,第5-6行的 ...
你的编程功底很好呀

10
Rocky_xin 发表于 2017-5-21 16:00:45
zhou1_20 发表于 2017-5-20 23:56
你的编程功底很好呀
别讽刺我了,哪有什么功底,才刚学

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-19 18:38