搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  上市公司公告样本数据-抽样0.5%
资料下载链接地址: https://bbs.pinggu.org/a-3545475.html
附件大小:
76 Bytes   举报本内容
推荐!1998-2021中国上市公司公告数据大全【更新时间】:2021年9月
【爬虫软件】:Stata16

数据来源:新浪财经
观测值数量:423万+
变量数量:6(股票代码 公告年度 公告日期 公告标题 公告链接 公告内容)
数据说明:本人前后花了大概一个月时间爬取了截至2021年9月的全部上市公司公告(累得不要不要的!),具体包括年度报告、中期报告、季度报告、董事会决议、监事会决议、公司章程、配股说明书、股权质押、收购并购等等全部披露的内容,可以使用这套数据进行文本分析,构建相关的变量。但是还是请大家注意如下几点:(1)公告内容不包括表格中的内容(这个确实不太好敲代码批量处理,好在表格的内容不太重要);(2)有一些公告内容是另附pdf文件的,公告内容中没有单独爬取这些,还是受限于代码程序的批量处理;(3)数据由于包含大量文本信息,所以数据非常大,我的电脑是64内存顶配的,打开完整版本(30g+)还需要花费几分钟时间,如果你用正则表达式等等提取的话,跑一条命令可能也得几分钟(如果你的电脑只有8g内存的话,几十分钟也是可能的!),所以我把数据拆分成每一年的了(每一年的数据文件大小适中,最小几十kb,最大不超过2g),同时建议在文本分析之前筛选一下自己需要的公告内容,如只保留年报、董事会决议等等,这样后面的处理效率就会更高了!这一点请大家千万注意!大家的电脑大概率是承受不了如此规模的数据了;(4)目前只提供dta格式的数据,主要是excel导出太费时间了,后期如果我有时间再转换一下吧;(5)大家购买前请一定下载一下样本数据(免费-见附件),我随机从整体样本中抽样了0.5%,然后看一下是不是自己需要的,同时也可以试试自己的电脑能不能轻松读取,如果2万多的观测值还卡的话,那么几十万甚至几百万的话那就……


公告原链接展示:



数据展示:













    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2026-1-5 12:39