复刻
首先,文本预处理是关键的一步。将社会责任报告文本拆分为长句,以便更好地进行主题建模。这种处理方式有助于克服行业信息对主题分类的干扰。文本经过清洗,去除标点符号和停用词,确保数据的纯净性。接着,使用结巴分词工具对文本进行分词,生成LDA模型的训练数据。
在主题分析中,利用Python的sklearn库进行LDA建模。该算法采用变分推断EM算法来求解文档的主题分布和主题中词的分布。通过经验设置LDA的参数α和β为0.1和0.01,确保模型的稳定性。
确定主题数量是LDA分析的关键步骤。通过困惑度(Perplexity)指标和可视化分析,结合实际主题分类结果,确定最佳的主题数量。困惑度是衡量模型聚类效果的指标,数值越低,模型效果越好。在0到5的主题数量范围内,困惑度逐渐趋于平缓,最终确定6个主题。
在此基础上,利用LDAvis工具对主题分类结果进行可视化。图中圆圈大小表示主题的频率分布,圆圈之间的距离表示主题相似度。当主题数量为6时,主题相对分布均匀,分类效果较好。进一步分析每个主题下的前25个关键词,能够较好地分类出文本研究的利益相关者主题。
表1展示了6个主题的关键词,帮助识别文本中的主要主题。最后,通过公式计算每个主题在文本中的篇幅占比,衡量不同主题的关注程度。公式中,Zi表示第i个主题的篇幅,word_sen_i表示第i个主题的句子字数,word_doc表示该文档总字数。通过这种方式,深入分析了文本主题的分布情况。
一、数据介绍
数据名称:社会责任关注度
数据范围:A股上市公司
数据年份:2006-2023年
样本数量:14206条
数据整理:权威数据库,有需要可告知
更新时间:2024年12月
数据处理软件:python
二、指标说明
四种关注度
没有对象型社会责任行动表现这个数据
三、参考文献
- 李四海,马文琪.共同富裕目标下企业社会责任响应策略——基于社会责任报告的LDA主题分析[J].经济管理,2023,45(08):184-208.
社会责任关注度LDA.zip
(2.93 MB, 需要: RMB 39 元)


雷达卡



京公网安备 11010802022788号







