搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  样本数据(抽样3%免费下载)
资料下载链接地址: https://bbs.pinggu.org/a-4149533.html
附件大小:
76 Bytes   举报本内容
更新!【更新至2023】2001-2023上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2024年5月13日
处理软件:Python 3.11
年度区间:2001-2023
变量个数:64(详见样本数据——免费下载查阅)
年报数量:58448(筛选后58237)


说明:本数据为2001-2023上市公司年报文本分析与数字经济词频统计。本套数据包含内容如下:

1.2001-2023上市公司年报文本(txt格式,pdf较大可向楼主索取)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2023数字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典词频统计)
由于数据量较大,数据采取百度网盘链接形式,大家可以先在附件中免费下载查看样本数据

数字经济词频统计构建过程:
1.巨潮年报爬虫代码 —— 爬取上市公司年报(pdf格式);
2.PDF转换TXT ——批量将爬取的上市公司年报从 pdf 格式转化为 txt 格式;
3.筛选并标准化年报文本 ——规范年报 txt 格式 方便后续操作,这一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2024_20240331_2023年年度报告.txt”。
4.jieba分词代码——根据 jieba 库,并结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D 打英3D 技术、3D 工具、AI、物联网、边缘计算、云计算、云服务、云端、数字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三是反映数据驱动商业应用,包括 O2O、B2B、C2C、P2P、C2B、B2C、电子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词频统计代码 ——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频统计 ——统计 txt 年报各上市公司各个年度的总词频;
7.年报文本总字数统计 ——统计 txt 年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数据 ——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,并生成最终面板数据。


各年度观测值:
年度Freq.PercentCum.
200050.010.01
20011,0091.731.74
20021,0781.853.59
20031,1411.965.55
20041,2332.127.67
20051,2362.129.79
20061,3182.2612.05
20071,4382.4714.52
20081,5002.5817.1
20091,6492.8319.93
20101,9973.4323.36
20112,2323.8327.19
20122,3554.0431.24
20132,4004.1235.36
20142,5194.3339.68
20152,7174.6744.35
20163,0105.1749.52
20173,3865.8155.33
20183,4855.9861.31
20193,7026.3667.67
20204,1737.1774.84
20214,6868.0582.88
20224,8928.491.28
20235,0768.72100
Total58,237100

描述性统计:
variableNmeansdminp50max
年报总字数582371392985148647137981774674
年报总词频582373367313056833353134167
维度1_数据要素存量582374.413.6700378
维度2_数据开发能力5823733.1776.98081705
维度3_数据驱动商业应用5823717.5838.8506768
维度4_数据价值变现582370.232.3100126
数字经济词频合计5823755.38103.770181715

数据代码展示:






【更多帖子链接】:点击此处




    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2026-1-3 08:23