楼主: hellohappy0
15157 50

[资料共享] 批量爬取知网统计年鉴详细介绍附代码 [推广有奖]

21
调解心理学 发表于 2019-9-27 10:53:06 |只看作者 |坛友微信交流群
海之城 发表于 2019-9-27 10:40
我在py3下运行的,爬虫文档有点错误,修正后还是空的
应该是cookies的问题,REQUEST请求一下headers里面的cookies和agent即可。

使用道具

22
海之城 发表于 2019-9-27 12:14:31 |只看作者 |坛友微信交流群
调解心理学 发表于 2019-9-27 10:53
应该是cookies的问题,REQUEST请求一下headers里面的cookies和agent即可。
请问怎么设置?

使用道具

23
hellohappy0 发表于 2019-9-28 12:57:47 |只看作者 |坛友微信交流群
海之城 发表于 2019-9-27 12:14
请问怎么设置?
多百度谷歌,爬虫的教学网上多的不行。
另外我代码是python 3.6版本时候写的

使用道具

24
kige 发表于 2019-10-14 03:43:40 来自手机 |只看作者 |坛友微信交流群
hellohappy0 发表于 2019-6-19 09:12
批量爬取知网统计年鉴的方法,需要学校购买过该统计年鉴库
这里以爬取1984年到2017年中国城市统计年鉴的所 ...
如果程序好用,可以减少不少工作量!

使用道具

25
xzjy789 发表于 2019-10-15 15:01:06 |只看作者 |坛友微信交流群
求楼主赠送论坛币,学生为了你的帖子专门注册了
已有 1 人评分论坛币 收起 理由
hellohappy0 + 5 观点有启发

总评分: 论坛币 + 5   查看全部评分

使用道具

26
hellohappy0 发表于 2019-10-17 01:09:54 |只看作者 |坛友微信交流群
xzjy789 发表于 2019-10-15 15:01
求楼主赠送论坛币,学生为了你的帖子专门注册了
现在改成免论坛币了

使用道具

27
cheese7777 在职认证  学生认证  发表于 2019-11-6 10:34:47 |只看作者 |坛友微信交流群
请问在爬取的时候是连学校的网才可以吗,用VPN的话我的不行呢,
还有一个问题,如果年鉴上的Excel表的名字相同,怎样修改下载呢(我需要下载保险年鉴,地方版的表格名称都是相同的)

使用道具

28
cheese7777 在职认证  学生认证  发表于 2019-11-6 10:58:43 |只看作者 |坛友微信交流群
海之城 发表于 2019-9-27 10:40
我在py3下运行的,爬虫文档有点错误,修正后还是空的
我的也是这样的问题,请问解决了吗

使用道具

29
cheese7777 在职认证  学生认证  发表于 2019-11-6 11:01:17 |只看作者 |坛友微信交流群
调解心理学 发表于 2019-9-27 10:53
应该是cookies的问题,REQUEST请求一下headers里面的cookies和agent即可。
您好,请问代码中如何加cookies和agent,我完全代码小白,但是需要下载保险年鉴,还麻烦您帮助

使用道具

30
cheese7777 在职认证  学生认证  发表于 2019-11-6 11:03:08 |只看作者 |坛友微信交流群
海之城 发表于 2019-9-27 12:14
请问怎么设置?
您好,请问年鉴下载空白问题解决了吗,我遇到同样的问题,求帮助

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-10 18:55