楼主: 张恩廷
950 10

[经管数据集] 词频统计上市公司年报文本数据txt格式巨潮网爬取并只需根据自己需要构建关键词统 [推广有奖]

  • 0关注
  • 2粉丝

已卖:38份资源

硕士生

80%

还不是VIP/贵宾

-

威望
0
论坛币
802 个
通用积分
1.8224
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
775 点
帖子
41
精华
0
在线时间
349 小时
注册时间
2019-3-13
最后登录
2025-11-19

楼主
张恩廷 在职认证  发表于 2023-3-29 23:27:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
词频统计用 上市公司年报文本数据,剩下的工作就是根据自己的需要构建关键词语料库,然后进行词频统计分析。
并在文件中附录了做词频统计所需的代码,见txt文本,主要参照这位大神代码https://blog.csdn.net/weixin_47172744/article/details/114765696。
python版本为3.10,年报文本到2021年。
因为爬取和转换pdf时间较长,有需要的小伙伴可以省事了,直接做词频统计了。
上市公司年报文本数据并附词频统计代码 (76 Bytes, 需要: RMB 58 元)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:上市公司年报 txt格式 上市公司 公司年报 文本数据 词频统计 上市公司文本数据 巨潮网 Python

沙发
张恩廷(未真实交易用户) 在职认证  发表于 2023-3-29 23:30:54
数据截图

11111_20230429234943.png (37.76 KB)

数据截图

数据截图

藤椅
张恩廷(未真实交易用户) 在职认证  发表于 2023-3-29 23:31:45
所购数据截图

2222220230429235041.png (23.03 KB)

2222220230429235041.png

板凳
张恩廷(未真实交易用户) 在职认证  发表于 2023-3-30 08:53:06
下面的工作就是构架自己的词频了,节省很多时间

11111_20230429234943.png (37.76 KB)

11111_20230429234943.png

报纸
张恩廷(未真实交易用户) 在职认证  发表于 2023-3-30 08:57:46
一些截图

地板
张恩廷(未真实交易用户) 在职认证  发表于 2023-3-30 08:59:39
大家有什么问题可以询问,

11111_20230429234943.png (37.76 KB)

数据截图

数据截图

7
七剑(未真实交易用户) 发表于 2023-3-31 16:06:54
点个赞,谢谢分享!

8
bloodfi(未真实交易用户) 发表于 2023-3-31 16:35:28
谢谢分享!

9
laomm002(未真实交易用户) 发表于 2023-3-31 20:04:24

10
张恩廷(未真实交易用户) 在职认证  发表于 2023-4-4 10:53:59
现在指标构建正值风口,顶刊可能发不了了,但一些a刊还是没问题的,毕竟自行构建的指标具有唯一性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 03:49