https://bbs.pinggu.org/thread-7320099-1-1.html
https://bbs.pinggu.org/thread-7292296-1-1.html
本来想把深交所爬取同样放在上一篇帖子中,但是发现深交所采用的是post请求中的payload方式
在写的时候没反应过来,琢磨了一下才弄懂代码该怎么写。
也就是需要用到payload为参数进行访问。
比如
`{"seDate":["",""],"channelCode":["fixed_disc"],"bigCategoryId":["010301"],"pageSize":30,"pageNum":2}`
## 代码的基本思路
1. 获取深交所所有上市公司PDF的地址
2. 通过访问PDF地址进行下载
代码如下:
在使用中发下代码编写有误,故重现附上更正后的代码:
感谢南风拂面 的意见,(实在抱歉)因为网站访问到第500页后无法显示,爬取报错,只能以三年为单位,分多次下载。代码如下: