某网站工作信息里工作经验/学历要求的代码如下
- <div class="t1">
- <span class="sp4">
- <em class="i1"></em>
- 2年经验
- </span>
- <span class="sp4">
- <em class="i2"></em>
- 本科
- </span>
- ……
工作经验和学历要求的class相同,不过em段(应该对应的拾工作经验和学历要求的图标)的class不同,实际上后面还有i3/i4对应语言年龄等
如果单独爬取这个页面的内容(比如工作经验)的话,我现在知道的是用
- read_html(url) %>% html_nodes('div.t1') %>% html_nodes('span.sp4') %>% '['(1) %>% html_text()
而em的class属性和工作经验等内容是一一对应的不会出错。所以想问下,有没有什么方法利用 <em class="i1">这里的clss属性的定位上一层的<span class="sp4">?


雷达卡




京公网安备 11010802022788号







