楼主: cdl0102
1215 2

[学习分享] 关于R爬虫的 [推广有奖]

  • 0关注
  • 0粉丝

大专生

96%

还不是VIP/贵宾

-

威望
0
论坛币
2 个
通用积分
27.2145
学术水平
0 点
热心指数
5 点
信用等级
0 点
经验
411 点
帖子
31
精华
0
在线时间
100 小时
注册时间
2013-8-20
最后登录
2017-10-20

楼主
cdl0102 发表于 2017-4-18 16:54:28 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
试着爬招聘信息网站,遇到个问题
某网站工作信息里工作经验/学历要求的代码如下

  1. <div class="t1">
  2.    <span class="sp4">
  3.       <em class="i1"></em>
  4.       2年经验
  5.    </span>
  6.    <span class="sp4">
  7.       <em class="i2"></em>
  8.       本科
  9.    </span>
  10. ……
复制代码


工作经验和学历要求的class相同,不过em段(应该对应的拾工作经验和学历要求的图标)的class不同,实际上后面还有i3/i4对应语言年龄等
如果单独爬取这个页面的内容(比如工作经验)的话,我现在知道的是用
  1. read_html(url) %>% html_nodes('div.t1') %>% html_nodes('span.sp4') %>% '['(1) %>% html_text()
复制代码
不过问题在于要爬很多工作页面,而有些页面可能只有学历要求的字段,工作经验字段没有,我对span.sp4段简单的选择[1][2][3]得到的肯定会出问题,比如这个页面%>% '['(1) 得到工作经验,如果某个页面没有经验要求只有学历要求我用%>% '['(1)得到的就是学历要求的属性。
而em的class属性和工作经验等内容是一一对应的不会出错。所以想问下,有没有什么方法利用 <em class="i1">这里的clss属性的定位上一层的<span class="sp4">?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:工作经验 招聘信息 学历要求 信息网 爬虫 定位

沙发
飞天玄舞6 在职认证  发表于 2017-4-19 08:23:48
可以参考一下《基于R语言的自动数据收集》,里面有,好久不看忘了。

藤椅
ZhandaYang 发表于 2017-4-20 14:16:18
可否把网站贴出来

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-21 04:56