但是因为天眼查登录后的网页源码与未登录状况的下的网页源码不同,所以需要在使用代码的时候添加上登录cookies,使用代码。
因为个人能力有限,代码再每爬取100个公司名称的同时,会有验证码,虽然有考虑使用代理IP。
但是发现代理IP成本较高,就是每一次需要输入验证码的的时候,刷新一次网页,手动输入。
然后再继续运行原来的代码,但每一次都要该range()函数中开始的数字,有点麻烦。
但算是半自动了吧。
如果获取数量不大,算是有点帮助了。
具体爬去分两步。
## 第一步先获取要查找公司的网址
## 然后访问网址提取内容
代码如下:
![](https://bbs-cdn.datacourse.cn/static/image/filetype/text.gif)