首先遍历所有文件,找到所有年份的股票代码集合的交集,即所有年份都存在的上市公司数据;
然后对文本进行分词处理,分词过程中去掉阿拉伯数字和标点符号,使用潜在语义索引(Latent Semantic Indexing,LSI)余弦相似度计算法,计算得出当期MD&A文本与上一期MD&A文本的相似度;
数据来源:人工整理
时间跨度:2008-2023年
数据格式:Excel
包含指标:
股票代码 | 股票简称 | 年份 | 年度相似度 |
样例数据:
参考文献:宋昕倍,陈莹,逯东,程杰. 信息环境、上市公司增量信息披露与资本市场定价效率——基于MD&A文本相似度的研究[J]. 南开管理评论, 2024, 27(5): 30-39.
下载链接:
【实证分析】MD&A文本相似度分析(2008-2023年)
(76 Bytes, 需要: RMB 15 元)


雷达卡



京公网安备 11010802022788号







