| 所在主题: | |
| 文件名: 上市公司公告样本数据-抽样0.5% | |
| 资料下载链接地址: https://bbs.pinggu.org/a-3545475.html | |
| 附件大小: | |
|
推荐!1998-2021中国上市公司公告数据大全【更新时间】:2021年9月
【爬虫软件】:Stata16 数据来源:新浪财经 观测值数量:423万+ 变量数量:6(股票代码 公告年度 公告日期 公告标题 公告链接 公告内容) 数据说明:本人前后花了大概一个月时间爬取了截至2021年9月的全部上市公司公告(累得不要不要的!),具体包括年度报告、中期报告、季度报告、董事会决议、监事会决议、公司章程、配股说明书、股权质押、收购并购等等全部披露的内容,可以使用这套数据进行文本分析,构建相关的变量。但是还是请大家注意如下几点:(1)公告内容不包括表格中的内容(这个确实不太好敲代码批量处理,好在表格的内容不太重要);(2)有一些公告内容是另附pdf文件的,公告内容中没有单独爬取这些,还是受限于代码程序的批量处理;(3)数据由于包含大量文本信息,所以数据非常大,我的电脑是64内存顶配的,打开完整版本(30g+)还需要花费几分钟时间,如果你用正则表达式等等提取的话,跑一条命令可能也得几分钟(如果你的电脑只有8g内存的话,几十分钟也是可能的!),所以我把数据拆分成每一年的了(每一年的数据文件大小适中,最小几十kb,最大不超过2g),同时建议在文本分析之前筛选一下自己需要的公告内容,如只保留年报、董事会决议等等,这样后面的处理效率就会更高了!这一点请大家千万注意!大家的电脑大概率是承受不了如此规模的数据了;(4)目前只提供dta格式的数据,主要是excel导出太费时间了,后期如果我有时间再转换一下吧;(5)大家购买前请一定下载一下样本数据(免费-见附件),我随机从整体样本中抽样了0.5%,然后看一下是不是自己需要的,同时也可以试试自己的电脑能不能轻松读取,如果2万多的观测值还卡的话,那么几十万甚至几百万的话那就…… 公告原链接展示: 数据展示: |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明