**最新上市公司年报文本数据获取指南**
**持续更新,敬请关注以获取最新版**
- 无论您何时需要撰写论文或进行学术研究,都能确保您使用的是最新数据。
**版权声明**
- 本资料为原创整理,未经允许,严禁转载。侵权必究。
**参考文献**
1. 王克敏等. "年报文本信息复杂性与管理者自利行为——中国上市公司案例分析." 《管理世界》, 2018, 第34卷(12): 120-132+194.
2. 周波等. "年报语调与股价崩盘风险——基于中国A股上市公司的实证研究." 《会计研究》, 2019, 第11期: 41-48.
3. 任宏达等. "社会关系对企业信息披露质量的影响——以中国上市公司年报文本分析为例." 《南开管理评论》, 2018, 第21卷(5): 128-138.
**数据采集说明**
- 利用Python爬虫技术,我们采集了上市公司的年报数据。考虑到年报的时效性,我们仅保留了最新的年报版本。
- 年报文件的命名规则为:“证券代码_年份_简称_文件名_年报发布日期”,以便于后续的数据处理和分析。
- 通过这种方法,我们共收集到了63049份文本数据,且Python爬虫代码附带了详细的注释,以便于理解和使用。
**样本选择与数据格式**
- 我们的样本涵盖了2001年至2023年所有A股上市公司的年报,文本格式统一为txt,以便于进一步的数据处理。
**附加信息**
pdf和txt格式,txt是utf-8编码
**数据截图**
**年度数据量统计**
- 以下是按年份统计的样本量数据,展示了每年收集到的年报数量。
| 年份 | 样本量 |
| ---- | ------ |
| 1999 | 484 |
| ... | ...
|2023| 5361|
**版权所有,侵权必究**
---
请注意,以上改写版本仅对原文进行了格式和表述上的调整,以提高可读性和专业性,并未改变原有信息和数据。同时,省略号 "..." 表示省略了部分年份的数据,以节省空间。
![](https://bbs-cdn.datacourse.cn/static/image/filetype/yunpan.jpg)
![](https://bbs-cdn.datacourse.cn/static/image/filetype/yunpan.jpg)