楼主: smilealways193
878 0

[问答] 网页抓取循环问题 [推广有奖]

  • 0关注
  • 0粉丝

大专生

31%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1022 点
帖子
31
精华
0
在线时间
22 小时
注册时间
2012-2-23
最后登录
2017-7-30

楼主
smilealways193 发表于 2017-7-20 08:36:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
抓取的代码如下:
dist<-lapply(1:dim(PREF)[1],function(i){
  url<-paste0('http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/',PREF[i,2])
      web<-readLines(url,encoding="gb2312")
      web<-iconv(web,"gb2312","UTF-8")
})

PREF是上一层抓的信息,大概长这样:
  PROV_NAME    PREF_LINK    PREF_CODE PREF_NAME
1    北京市 11/1101.html 110100000000    市辖区
2    北京市 11/1102.html 110200000000        县
3    天津市 12/1201.html 120100000000    市辖区
4    天津市 12/1202.html 120200000000        县
5    河北省 13/1301.html 130100000000  石家庄市
6    河北省 13/1302.html 130200000000    唐山市

上面代码中的这个循环,如果从1:346就是上面的dim(PREF)[1]就会报错,但是如果以50为区间就可以跑遍。
我开始以为可能是一次访问失败,加入了循环和url.exist判断,还是不成功,所以是因为频繁访问被服务器拒绝了吗?求大神帮助


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 16:38