[问答] 网页抓取循环问题 [推广有奖]

0关注
0粉丝

大专生

31%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1022 点
帖子: 31
精华: 0
在线时间: 22 小时
注册时间: 2012-2-23
最后登录: 2017-7-30

楼主

smilealways193 发表于 2017-7-20 08:36:36 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

抓取的代码如下：
dist<-lapply(1:dim(PREF)[1],function(i){
  url<-paste0('http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/',PREF[i,2])
   web<-readLines(url,encoding="gb2312")
   web<-iconv(web,"gb2312","UTF-8")
})

PREF是上一层抓的信息，大概长这样：
  PROV_NAME PREF_LINK PREF_CODE PREF_NAME
1 北京市 11/1101.html 110100000000 市辖区
2 北京市 11/1102.html 110200000000       县
3 天津市 12/1201.html 120100000000 市辖区
4 天津市 12/1202.html 120200000000       县
5 河北省 13/1301.html 130100000000  石家庄市
6 河北省 13/1302.html 130200000000 唐山市

上面代码中的这个循环，如果从1：346就是上面的dim(PREF)[1]就会报错，但是如果以50为区间就可以跑遍。
我开始以为可能是一次访问失败，加入了循环和url.exist判断，还是不成功，所以是因为频繁访问被服务器拒绝了吗？求大神帮助