发帖

楼主: chenjipeidx

1184 1

[数据挖掘理论与案例] Rcurl 爬取网站目标字段，html标签缺失，字段长度不一致 [推广有奖]

1关注
0粉丝

大专生

21%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 3 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1103 点
帖子: 15
精华: 0
在线时间: 71 小时
注册时间: 2009-10-1
最后登录: 2022-3-20

楼主

chenjipeidx 发表于 2016-10-24 09:02:29 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

hello，
   本人初学R,用Rcurl、XML爬取搜房网的信息，但是有个目标字段“建筑年代”不是每条信息都包含的，所以解析提取目标字段后dataframe无法将长度不一致的向量合并在一起，也就是说，缺少的那条信息不知道怎么让它留空占位，
  提取函数：
giveBuildyear = function(rootNode){
            buildyear <- xpathSApply(rootNode,"/html/body/div[7]/div[3]/div[1]/div[2]/dl[*]/dd[1]/p[3]/span[10]",xmlValue)
            buildyear
         }

也就是在HTML中会直接缺少span[10]的标签，请教如何解决这个问题？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Rcurl Curl HTML htm url 标签网站

[数据挖掘理论与案例] Rcurl 爬取网站目标字段，html标签缺失，字段长度不一致 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘理论与案例] Rcurl 爬取网站目标字段，html标签缺失，字段长度不一致 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群