代码说明:本代码⾸先针对⽤户提供的特定语料库,基于 Bert 模型进⾏词汇的编码,⽽后基于Kmeans++ 聚类算法对语料库进⾏分组,其中具体的组数基于silhouette值进⾏判断,以构建⼀个精细化的主题⽹络。通过这种⽅式,研究者能够有效地对企业的信息⽂本(如:年报)进⾏深⼊分析,准确提取出企业在该领域的专业深度和业务⼴度。其中,⼴度的定义是企业的某个⽂档的词汇可以包含⼏个组的词汇,包含的组数即为广度,深度的定义是此⽂档⾥符合该主题的特定词汇的TF-IDF 值之和。
本文档的优势:
(1)可分析任何文档,例如企业年报、报纸信息、企业网站新闻标题等,实现其他报告中相关指标构建。
(2)数据优势:首先,通过运用机器学习BERT算法和K-means聚类,我们能够从词汇的语义相似度和文本主题等多个维度进行分析,获得最佳聚类数,实现对词汇的精确划分,确保同一类别内的词汇联系紧密,而不同类别间的联系则尽可能弱。其次,引入TF-IDF权重,其既考虑了词汇在单个文本中的局部重要性(TF),也反映了其在整个文档集合中的全局重要性(IDF),从而在文本挖掘和信息检索中能够更有效地捕捉关键信息。(3)压缩包中包含help文档,帮你解读代码。
参考文献:Jiang C, Yin C, Tang Q, et al. The value of official website information in the credit risk evaluation of SMEs[J]. Journal of Business Research, 2023, 169: 114290.


雷达卡







京公网安备 11010802022788号







