代码运行思路:
1、Python 运行selenium,通过关键词在谷歌学术上爬取论文标题,引用量和期刊分区信息
2、利用爬取到的论文标题,再在谷歌学术上爬取摘要、作者、年份,期刊名,出版商等信息
3、根据爬取到的期刊分区数据,根据不同期刊分区指数建立对应的列
4、将所有数据进行汇总,保存为Excel
注:
1、谷歌学术特别容易被屏蔽,所以代码没有开启多线程,而且设置了较长时间的暂停时间,建议设置好关键词和网站后,凌晨自动运行。实测晚上花四五个小时就能跑完,爬取几十页中的几百篇论文数据问题不大
2、在爬取过程中,如果程序因各种原因而停止。已经爬取的数据并不受影响。而且可以根据暂停的节点,修改一下位置后,继续运行程序,实测没问题
3、能翻墙的,可以直接使用谷歌学术,并设置一页20条数据,这样翻页数量能少点,减少被屏蔽的概率
4、不能翻墙的,使用国内谷歌学术镜像也是一样的,只是一页只有10页的区别
5、要求有easyscholoar会员账号,网上有免费获取方法,自己解决
总的软件分为四步,复制在jupyter lab中。想使用的,安装一下jupyter lab
案例图片:
附件:
爬取谷歌学术论文信息Python代码
(76 Bytes, 需要: RMB 49 元)



雷达卡




京公网安备 11010802022788号







