[经管数据集] 2024-2001年上市公司企业MD&A叙述性信息披露数据、MD&A文本相似度数据 [推广有奖]

1关注
1036
粉丝

已卖：7226份资源

泰斗

90%

还不是VIP/贵宾

威望: 1 级
论坛币: 804 个
通用积分: 248.2235
学术水平: 38 点
热心指数: 37 点
信用等级: 31 点
经验: 650571 点
帖子: 33662
精华: 0
在线时间: 18053 小时
注册时间: 2018-2-7
最后登录: 2026-3-18

楼主

张淼儿

发表于 5 小时前 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1、资料名称：2024-2001年上市公司企业MD&A叙述性信息披露数据、MD&A文本相似度数据
2、测算方式：参考顶刊《南开管理评论》于李胜老师的做法， V S M 模型与 T F-IDF 算法相结合，把上市公司 M D&A 文本与同一年度其他上市公司分别进行比较，并计算出文本之间的向量夹角余弦值，即文本相似度。具体步骤如下：① 利用 VS M 模型将每份文本向量化，即转换为欧氏空间 n 维向量，其中 n 是所有文本中非重复词的数量。每个向量元素是文本 j 中特定词 i 出现的频率，同时用文本 j 的总词数进行加权以防止其偏向长文本，得到词频 T F i , j = n i , j /( ∑ k n k , j )，其中分子为特定词 i 在文本 j 中出现的次数，分母为文本 j 中所有词 {k} 出现的次数之和。② 通过特定词的逆文档频率赋予不同的权重，即I DFi =log D/({ j;t i ∈ dj}+1)，其中，D 为样本中文本数量，{ j;ti ∈ dj} 为包含特定词 i 的文本数。采用公司与同一年度其他公司的文本相似度的均值来衡量，具体做法及公式如下方图片所示
3、资料范围：6.5万个样本，5600多家企业，包括原始数据、计算代码及最终结果，大家可以验证一下确保准确性！
4、参考文献：
于李胜,王泽豪,王艳艳,等.创新对企业MD&A叙述性信息披露策略的影响[J].南开管理评论,2024,27(03):150-162.