请选择 进入手机版 | 继续访问电脑版
楼主: zhaozimeng
4659 12

[实证分析] 【更新至2022】上市公司年报文本分析与数字经济词频统计(全套代码+数据) [推广有奖]

学科带头人

82%

还不是VIP/贵宾

-

威望
0
论坛币
361 个
通用积分
157.3856
学术水平
55 点
热心指数
58 点
信用等级
51 点
经验
4622 点
帖子
2203
精华
1
在线时间
2490 小时
注册时间
2019-3-22
最后登录
2024-9-14

20周年荣誉勋章

zhaozimeng 在职认证  发表于 2023-4-4 11:14:42 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2023年5月5日
处理软件:Python 3.10
年度区间:2001-2022
变量个数:64(详见样本数据——免费下载查阅)
年报数量:53787


说明:本数据为2001-2022上市公司年报文本分析与数字经济词频统计。本套数据包含内容如下:1.2001-2022上市公司年报文本(txt格式)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2022数字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典词频统计)
由于数据量较大,数据采取百度网盘链接形式,并且省去了中间过程数据(如需要购买后可向楼主索取),大家可以先在附件中免费下载查看样本数据

数字经济词频统计构建过程:
1.巨潮年报爬虫代码 —— 爬取上市公司年报(pdf格式);
2.PDF转换TXT ——批量将爬取的上市公司年报从 pdf 格式转化为 txt 格式;
3.筛选并标准化年报文本 ——规范年报 txt 格式 方便后续操作,这一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2023_20230331_2022年年度报告.txt”。
4.jieba分词代码——根据 jieba 库,并结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D 打印、3D 技术、3D 工具、AI、物联网、边缘计算、云计算、云服务、云端、数字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三是反映数据驱动商业应用,包括 O2O、B2B、C2C、P2P、C2B、B2C、电子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词频统计代码 ——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频统计 ——统计 txt 年报各上市公司各个年度的总词频;
7.年报文本总字数统计 ——统计 txt 年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数据 ——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,并生成最终面板数据。

各年度观测值:
年度Freq.PercentCum.
20011,0091.881.88
20021,07823.88
20031,1412.126
20041,2332.298.29
20051,2352.310.59
20061,3182.4513.04
20071,4372.6715.71
20081,5002.7918.5
20091,6493.0721.57
20101,9963.7125.28
20112,2314.1529.43
20122,3544.3833.8
20132,4004.4638.26
20142,5194.6842.95
20152,7175.0548
20163,0105.653.59
20173,4076.3359.93
20183,5066.5266.45
20193,7376.9573.4
20204,2697.9481.33
20214,9229.1590.48
20225,1199.52100
Total53,787100

描述性统计:
variableNmeansdminp50max
数字经济词频5378751.66498.8930171705

数据展示:
1.png


代码展示:
2.png


数字经济样本数据 (76 Bytes)
2001-2022年报分析与数字经济词频数据(全套代码+数据) (76 Bytes, 需要: RMB 186 元)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:上市公司年报 公司年报 上市公司 上市公 Variable

数字经济样本数据

76 Bytes

回帖推荐

eaglerina 发表于11楼  查看完整内容

数据资料整理很有条理,赞
zhaozimeng 在职认证  发表于 2023-4-4 11:18:54 |显示全部楼层 |坛友微信交流群

精品数据集集锦


一、上市公司基础数据系列


1.【更新至2022】1990-2022中国上市公司数据大全(1372变量 代码+数据)
https://bbs.pinggu.org/thread-11500926-1-1.html

2.【更新至2021】1990-2021上市公司行业分类面板数据(多子库补全)

https://bbs.pinggu.org/thread-11036010-1-1.html

3.【更新至2021】1990-2021上市公司ST、ST*、PT及板块筛选面板数据

https://bbs.pinggu.org/thread-11035952-1-1.html

4.【更新至2021】上市公司中央国企和地方国企及非国企划分(数据+代码)

https://bbs.pinggu.org/thread-11043317-1-1.html

5.【更新至2021】1990-2021上市公司所在地区省市县面板数据

https://bbs.pinggu.org/thread-11029900-1-1.html

6.【更新至2021】1990-2021上市公司股权性质与公司治理数据(195变量)

https://bbs.pinggu.org/thread-11025202-1-1.html
7.【更新至2021】1990-2021上市公司审计相关变量(审计意见、是否是四大审计等)
https://bbs.pinggu.org/thread-11036039-1-1.html

8.【更新至2021】上市公司报表科目和财务指标面板数据(780变量)

https://bbs.pinggu.org/thread-11042158-1-1.html

9.【更新至2021】上市公司公司治理与股权性质数据(195变量)

https://bbs.pinggu.org/thread-11025202-1-1.html

10.【更新至2020】和讯网上市公司社会责任数据(6月16更新 爬虫代码+数据)

https://bbs.pinggu.org/thread-10646429-1-1.html

11.【更新至2020】1999-2020上市公司董监高人数(多子库补齐,含处理代码和数据)

https://bbs.pinggu.org/thread-10856765-1-1.html

12.【更新至2020】新浪财经上市公司高管个人特征及简历数据(最全!含爬虫代码)

https://bbs.pinggu.org/thread-10725251-1-1.html

13.【更新至2021】1990-2021高管(董监高)个人特征数据(代码+数据)

https://bbs.pinggu.org/thread-11139703-1-1.html

14.【更新至2021】上市公司CEO任期与高管个人任职数据(数据+处理代码)

https://bbs.pinggu.org/thread-11152844-1-1.html

15.【更新至2021】上市公司应计盈余管理-修正Jones模型(代码+数据)

https://bbs.pinggu.org/thread-11050622-1-1.html

16.【更新至2021】市公司应计盈余管理-扩展Jones模型+KWL模型(代码+数据)

https://bbs.pinggu.org/thread-11050649-1-1.html

17.【更新至2021】上市公司应计盈余管理-DD模型+BS模型(代码+数据)

https://bbs.pinggu.org/thread-11050676-1-1.html

18.【更新至2021】上市公司真实盈余管理(代码+数据)

https://bbs.pinggu.org/thread-11051932-1-1.html

19.【更新至2021】上市公司投资效率-Richardson模型(代码+数据)

https://bbs.pinggu.org/thread-11055004-1-1.html

20.【更新至2021】上市公司投资效率-Biddle模型(代码+数据)

https://bbs.pinggu.org/thread-11055035-1-1.html

21.【更新至2021】上市公司投资效率-Chen模型(代码+数据)

https://bbs.pinggu.org/thread-11055056-1-1.html

22.【更新至2021】上市公司融资约束KZ指数(代码+数据)

https://bbs.pinggu.org/thread-11043347-1-1.html

23.【更新至2021】上市公司融资约束WW指数(代码+数据)

https://bbs.pinggu.org/thread-11045855-1-1.html

24.【更新至2021】上市公司融资约束SA指数(代码+数据)

https://bbs.pinggu.org/thread-11044276-1-1.html

25.【更新至2021】上市公司融资约束FC指数(代码+数据)

https://bbs.pinggu.org/thread-11047262-1-1.html

26.【更新至2021】上市公司超额雇员两种算法(代码+数据)

https://bbs.pinggu.org/thread-11059040-1-1.html

27.【更新至2021】上市公司超额雇员-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11059059-1-1.html

28.【更新至2021】上市公司过度负债-分年度Tobit回归(代码+数据)

https://bbs.pinggu.org/thread-11056376-1-1.html

29.【更新至2021】上市公司过度负债-固定效应回归(代码+数据)

https://bbs.pinggu.org/thread-11056389-1-1.html

30.【更新至2021】上市公司超额在职消费(代码+数据)

https://bbs.pinggu.org/thread-11066954-1-1.html

31.【更新至2021】上市公司税收规避(代码+数据)

https://bbs.pinggu.org/thread-11155694-1-1.html

32.【更新至2021】上市公司名义企业所得税税率面板数据(多子库补齐 代码+数据)

https://bbs.pinggu.org/thread-11155655-1-1.html

33.【更新至2021】上市公司管理层权力-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11154440-1-1.html

34.【更新至2021】上市公司公司治理指数-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11153841-1-1.html


使用道具

zhaozimeng 在职认证  发表于 2023-4-4 11:19:32 |显示全部楼层 |坛友微信交流群

35.【更新至2021】上市公司高管超额薪酬-基础模型(代码+数据)

https://bbs.pinggu.org/thread-11063127-1-1.html

36.【更新至2021】上市公司高管超额薪酬-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11063505-1-1.html

37.【更新至2021】上市公司破产风险Zscore及其修订指标(代码+数据)

https://bbs.pinggu.org/thread-10909362-1-1.html

38.【更新至2020】上市公司董事会多样性指标构建(代码+数据)

https://bbs.pinggu.org/thread-10911532-1-1.html

39.【更新至2021】上市公司超额商誉(多个指标 代码+数据)
https://bbs.pinggu.org/thread-11064331-1-1.html
40.【更新至2021】上市公司并购溢价指标计算(代码+数据)
https://bbs.pinggu.org/thread-11163395-1-1.html


网络爬虫系列(含详细 Stata 爬虫代码)


41.【更新至2021】2000-2021中国上市公司年报数据(爬虫代码+txt年报文本)https://bbs.pinggu.org/thread-11478201-1-1.html

42.【更新至2020】和讯网上市公司社会责任数据(爬虫代码+数据)

https://bbs.pinggu.org/thread-10646429-1-1.html

43.【土地系列1】2000-2021土地交易数据(数据+代码)

https://bbs.pinggu.org/thread-10491869-1-1.html

44.【土地系列2】2000-2021土地转让数据(数据+代码

https://bbs.pinggu.org/thread-10516466-1-1.html

45.【土地系列3】2000-2021土地抵押数据(数据+代码

https://bbs.pinggu.org/thread-10550946-1-1.html


十二、土地数据系列


46.(更新)2000-2021土地交易数据(275万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10491869-1-1.html

47.(更新)2000-2021土地转让数据(81万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10516466-1-1.html

48.(推荐)2000-2021土地抵押数据(41万+ 含爬虫代码)

https://bbs.pinggu.org/thread-10550946-1-1.html


十三、数字经济系列


49.【更新至2021】2017-2021中国城市数字经济指数(数据+爬虫代码)

https://bbs.pinggu.org/thread-11281532-1-1.html




使用道具

zhaozimeng 在职认证  发表于 2023-8-23 13:54:37 来自手机 |显示全部楼层 |坛友微信交流群
zhaozimeng 发表于 2023-5-5 11:35
更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2023 ...

使用道具

zhaozimeng 在职认证  发表于 2023-8-25 09:23:28 来自手机 |显示全部楼层 |坛友微信交流群
zhaozimeng 发表于 2023-5-5 11:35
更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2023 ...

使用道具

zhaozimeng 在职认证  发表于 2023-8-29 09:58:06 来自手机 |显示全部楼层 |坛友微信交流群
zhaozimeng 发表于 2023-5-5 11:35
更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2023 ...
使用Python进行词频统计,构造指标变量

使用道具

shengjian88 学生认证  发表于 2023-9-6 16:36:20 |显示全部楼层 |坛友微信交流群
如果python报错可以解答吗

使用道具

zhaozimeng 在职认证  发表于 2023-9-7 08:47:52 来自手机 |显示全部楼层 |坛友微信交流群
shengjian88 发表于 2023-9-6 16:36
如果python报错可以解答吗
当然可以,评论私信都可以

使用道具

daijiemin 发表于 2024-1-4 21:11:40 |显示全部楼层 |坛友微信交流群
python文本分析程序有吗,我买了全套,但好像没看到

使用道具

zhaozimeng 在职认证  发表于 2024-1-5 15:16:36 |显示全部楼层 |坛友微信交流群
daijiemin 发表于 2024-1-4 21:11
python文本分析程序有吗,我买了全套,但好像没看到
你好,感谢支持,代码是有的,您看下,我按照步骤,拆分成9个py文件了(见下图),可以用pycharm打开 1.png

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-16 21:20