楼主: dream1095
7109 28

下载深交所年报python [推广有奖]

11
ygtqaz 发表于 2020-1-15 20:37:56 |只看作者 |坛友微信交流群
417097687@qq.com谢谢

使用道具

12
cwjcw81 在职认证  发表于 2020-1-17 08:46:58 |只看作者 |坛友微信交流群
原来只有一个附件是对的,我下了2个。。。不过还是很感谢楼主,很有启发性

使用道具

13
热敏电阻器 发表于 2020-3-10 18:41:00 |只看作者 |坛友微信交流群
楼主,请问出现下面这个问题要怎么处理呢,我还要添加什么代码进去吗?谢谢
Traceback (most recent call last):
  File "C:/Users/bruol/PycharmProjects/paqunianbao/paqunianbao.py", line 74, in <module>
    name = data_download_pdf.at[each,'secName'].replace("*","")
AttributeError: 'float' object has no attribute 'replace'

使用道具

14
热敏电阻器 发表于 2020-3-11 16:00:12 |只看作者 |坛友微信交流群
请问大家有没有出现很多文件下载下来都是年报摘要而不是年报全文的情况呢?这是下载链接地址的问题吗,求指教该如何解决呀谢谢

使用道具

15
热敏电阻器 发表于 2020-3-11 16:00:19 |只看作者 |坛友微信交流群
请问大家有没有出现很多文件下载下来都是年报摘要而不是年报全文的情况呢?这是下载链接地址的问题吗,求指教该如何解决呀谢谢

使用道具

16
LEIKEVIN 发表于 2020-4-20 00:17:19 |只看作者 |坛友微信交流群
  楼主请问下面这个问题怎么处理呢?谢谢
  firm_name = data_download_pdf.at[each,'secName'].replace("*","")
AttributeError: 'float' object has no attribute 'replace'

使用道具

17
foorever 发表于 2020-5-24 20:16:16 来自手机 |只看作者 |坛友微信交流群
dream1095 发表于 2019-9-17 20:58
写过两篇帖子,关于如何从巨潮资讯网以及上交所下载年报:
https://bbs.pinggu.org/thread-7320099-1-1.ht ...
liferiver@163.com,麻烦把调试好的发一下邮箱,谢谢

使用道具

18
HXB1995 发表于 2020-6-23 17:05:58 |只看作者 |坛友微信交流群
我好后悔啊,我为了下这个花了100开了个年会员。。。。结果发现不是stata代码是python,我裂开了呜呜呜

使用道具

19
win366 发表于 2020-7-6 16:09:37 |只看作者 |坛友微信交流群
买了,我邮箱158849425@qq.com,谢谢楼主

使用道具

20
chendongyu0125 发表于 2020-9-22 14:55:51 |只看作者 |坛友微信交流群
你的代码有一个错误,
第60行应该为:
            dict1 = {'secCode':secCode,'secName':secName,'url':url,'title':title,
                     'publishTime':publishTime}
另外,你的地址设定不够灵活,稍微修改了一下,供你参考。

from pathlib import Path
# 提取title中字符串获取年份
data_download_pdf['Year'] = data_download_pdf['title'].str.extract('([0-9]{4})')
cwd = Path().cwd()
# file_path = "G:\\深交所年报\\"
file_path = Path(cwd, '深交所年报')
Path(file_path).mkdir(parents=True, exist_ok=True)
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
# 文件路径要以\\结尾,如放入F盘年报文件夹,现在F盘创建文件夹,将路径写成   F:\\年报\\
for each in range(data_download_pdf.shape[0]):
    # each = 1
    # pdf_url = "http://disc.static.szse.cn/download//disc/disk02/finalpage/2019-07-05/dde0ce5e-e2c7-4c09-b6f4-a03ad9d593ee.PDF"
    code = data_download_pdf.at[each,'secCode']
    name = data_download_pdf.at[each,'secName'].replace("*","")
    year = data_download_pdf.at[each,'Year']
    print("开始下载{},股票代码{}的{}年报".format(name,code,year))
    file_name = "{}{}{}.pdf".format(code,name,year)
    file_full_name = Path(file_path, file_name)
    # file_full_name  = 'F:\\1.pdf'
    print(file_full_name)
    pdf_url = data_download_pdf.at[each,'url']
    rs = requests.get(pdf_url,headers= headers, stream=True)
    with open(file_full_name, "wb") as fp:
        for chunk in rs.iter_content(chunk_size=10240):
            if chunk:
                fp.write(chunk)
    time.sleep(random.uniform(1,2)) # 控制访问速度
    print("===================下载完成==========================")

感谢你的代码,很有收获。谢谢! 可以多交流。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 00:43