【爬虫软件】:Stata16
数据来源:新浪财经
观测值数量:423万+
变量数量:6(股票代码 公告年度 公告日期 公告标题 公告链接 公告内容)
数据说明:本人前后花了大概一个月时间爬取了截至2021年9月的全部上市公司公告(累得不要不要的!),具体包括年度报告、中期报告、季度报告、董事会决议、监事会决议、公司章程、配股说明书、股权质押、收购并购等等全部披露的内容,可以使用这套数据进行文本分析,构建相关的变量。但是还是请大家注意如下几点:(1)公告内容不包括表格中的内容(这个确实不太好敲代码批量处理,好在表格的内容不太重要);(2)有一些公告内容是另附pdf文件的,公告内容中没有单独爬取这些,还是受限于代码程序的批量处理;(3)数据由于包含大量文本信息,所以数据非常大,我的电脑是64内存顶配的,打开完整版本(30g+)还需要花费几分钟时间,如果你用正则表达式等等提取的话,跑一条命令可能也得几分钟(如果你的电脑只有8g内存的话,几十分钟也是可能的!),所以我把数据拆分成每一年的了(每一年的数据文件大小适中,最小几十kb,最大不超过2g),同时建议在文本分析之前筛选一下自己需要的公告内容,如只保留年报、董事会决议等等,这样后面的处理效率就会更高了!这一点请大家千万注意!大家的电脑大概率是承受不了如此规模的数据了;(4)目前只提供dta格式的数据,主要是excel导出太费时间了,后期如果我有时间再转换一下吧;(5)大家购买前请一定下载一下样本数据(免费-见附件),我随机从整体样本中抽样了0.5%,然后看一下是不是自己需要的,同时也可以试试自己的电脑能不能轻松读取,如果2万多的观测值还卡的话,那么几十万甚至几百万的话那就……
公告原链接展示:
数据展示: