最新上市公司年报PDF文本下载链接2007_2020
上市公司年报文本的分析和挖掘在财会金融领域变得越来越重要,而年度报告的pdf文本获取是展开文本分析的第一步。笔者利用Python爬取了2007年至2020年沪市(来自巨潮资讯网)和深市(来自深交所)所有上市公司年度报告的信息,主要包括以下变量:
stkcd 股票代码
name 股票简称
year 报告年度
reptitle 链接标题
repurl 下载链接
repsize 报告大小(KB)
reptime 报告时间
由于某一年度的报告在后续可能有更新、补充、修订等情况,笔者根据发布时间提取了迄今最新发布的年度报告下载链接。
在另一附件中,笔者提供了通过excel文件链接下载pdf财务报告的Python程序。