楼主: 少年派闰土
1787 2

[金融、财务数据] 【原创/珍贵/可用于分析企业各类文档】各类信息文本深度与广度指标构建 [推广有奖]

  • 0关注
  • 1粉丝

已卖:123份资源

硕士生

4%

还不是VIP/贵宾

-

威望
0
论坛币
1506572 个
通用积分
4.2901
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
593 点
帖子
24
精华
0
在线时间
205 小时
注册时间
2020-4-2
最后登录
2026-1-4

楼主
少年派闰土 学生认证  发表于 2024-4-19 22:31:28 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
代码说明:本代码⾸先针对⽤户提供的特定语料库,基于 Bert 模型进⾏词汇的编码,⽽后基于Kmeans++ 聚类算法对语料库进⾏分组,其中具体的组数基于silhouette值进⾏判断,以构建⼀个精细化的主题⽹络。通过这种⽅式,研究者能够有效地对企业的信息⽂本(如:年报)进⾏深⼊分析,准确提取出企业在该领域的专业深度和业务⼴度。其中,⼴度的定义是企业的某个⽂档的词汇可以包含⼏个组的词汇,包含的组数即为广度,深度的定义是此⽂档⾥符合该主题的特定词汇的TF-IDF 值之和。
本文档的优势:
(1)可分析任何文档,例如企业年报、报纸信息、企业网站新闻标题等,实现其他报告中相关指标构建。
(2)数据优势:首先,通过运用机器学习BERT算法和K-means聚类,我们能够从词汇的语义相似度和文本主题等多个维度进行分析,获得最佳聚类数,实现对词汇的精确划分,确保同一类别内的词汇联系紧密,而不同类别间的联系则尽可能弱。其次,引入TF-IDF权重,其既考虑了词汇在单个文本中的局部重要性(TF),也反映了其在整个文档集合中的全局重要性(IDF),从而在文本挖掘和信息检索中能够更有效地捕捉关键信息。(3)压缩包中包含help文档,帮你解读代码。



参考文献:Jiang C, Yin C, Tang Q, et al. The value of official website information in the credit risk evaluation of SMEs[J]. Journal of Business Research, 2023, 169: 114290.






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:指标构建 information credit risk Evaluation Informatio

Kmean算法确定最佳聚类数.png (102.01 KB)

Kmean算法确定最佳聚类数.png

文件内容.png (16.85 KB)

文件内容.png

代码及说明文档.zip
下载链接: https://bbs.pinggu.org/a-4141096.html

2.23 MB

需要: RMB 89 元  [购买]

沙发
wind-gone(未真实交易用户) 发表于 2024-4-22 11:15:14
这个有点炫

藤椅
少年派闰土(未真实交易用户) 学生认证  发表于 2024-4-22 22:18:47
wind-gone 发表于 2024-4-22 11:15
这个有点炫
可自行下单

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-5 07:53