楼主: lycanthropeman
5981 14

[问答] sciencedirect(爱思唯尔)论文爬虫 [推广有奖]

  • 3关注
  • 1粉丝

讲师

10%

还不是VIP/贵宾

-

威望
0
论坛币
5598 个
通用积分
59.8396
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
4219 点
帖子
287
精华
0
在线时间
534 小时
注册时间
2015-4-9
最后登录
2023-5-4

100论坛币
   我之前为爬取JSTOR(期刊文库)上面Journal of Finance 近五年的文章编了代码,一直运转良好。但最近导师要求我去下载JFE期刊(其在sciencedirect文库上)的近五年文章,我把自己的代码改了下却发现并不能使用,主要错在request.get并没得到相应的网页文本。求助有在sciencedirect爬取文章经验的大神,还望不吝赐教啊!

关键词:网页文本 近五年
沙发
lycanthropeman 学生认证  发表于 2018-12-1 09:28:37 |只看作者 |坛友微信交流群
注明:我是因为使用学校的IP地址,因此我的IP是有权限访问并下载sciencedirect文章的。

使用道具

藤椅
sbd88 发表于 2018-12-1 09:29:58 |只看作者 |坛友微信交流群
网站使用的动态编程吧?

使用道具

板凳
lycanthropeman 学生认证  发表于 2018-12-1 10:31:12 |只看作者 |坛友微信交流群
嗯,你果然是有水平呀,那请问这该用什么爬取啊?我手动下载时就会发现:首先在下载文章时会出现重定向(自动跳转)现象;然后,在网页加载pdf文本后,我过一会点击右上方的下载pdf按钮,显示的窗口就会成为 NAD0CA~4@G4FYUU%~[{TWYI.png (刚开始点击下载按钮是没问题的)。

使用道具

报纸
lycanthropeman 学生认证  发表于 2018-12-16 20:00:12 |只看作者 |坛友微信交流群
好吧,我自己已经摸索到答案了。谢谢大家的围观和回复了。

使用道具

PDF文件怎么爬取的?楼主指导一哈???

使用道具

7
lycanthropeman 学生认证  发表于 2019-1-1 01:32:22 |只看作者 |坛友微信交流群
木长耳斗眼儿 发表于 2018-12-26 18:59
PDF文件怎么爬取的?楼主指导一哈???
如果你对这个感兴趣的话,可以私聊。

使用道具

8
zxt1 发表于 2019-3-14 22:28:00 |只看作者 |坛友微信交流群
我也想要在sciencedirect爬取文章,楼主能否指点一下,谢谢

使用道具

9
lycanthropeman 学生认证  发表于 2019-3-23 19:20:15 |只看作者 |坛友微信交流群
zxt1 发表于 2019-3-14 22:28
我也想要在sciencedirect爬取文章,楼主能否指点一下,谢谢
怎么指点呢?

使用道具

10
lycanthropeman 学生认证  发表于 2019-3-23 19:20:16 |只看作者 |坛友微信交流群
zxt1 发表于 2019-3-14 22:28
我也想要在sciencedirect爬取文章,楼主能否指点一下,谢谢
怎么指点呢?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 23:03