(一)注意力内容配置
公司年报能有效反映企业家的特质及状态,参照蒋艳辉和冯楚建(2014)的研究,选择对上市公司年报中的管理层分析与讨论章节(MD&A)进行文本分析。
首先构建“创新注意力”词集。参照胡楠等(2021)和Brochet等(2015),通过机器学习Word2vec这一方法寻找近义词,缓解人为定义词表的主观性和通用同近义词工具的弱相关性。利用Word2vec模型对文本语料进行训练后,生成词向量空间,为每个词分配一个向量。在向量空间中,距离越近的词意思越近,可以通过两词的距离计算相似性。
具体筛选词集方式如下:
第一步,选择既往中文文献中曾用过的“创新注意力”词集作为基础词。
第二步根据Word2vec中的CBOW模型对中文年度财务报告语料进行训练,生成词向量空间,并在词向量空间中,对基础词的相似词进行筛选。筛选标准为:财报文本语料中出现频次在1000次以上,且和基础词频相似度在30%以上的拓展词。
第三步为邀请了3名业界和学术界专家对CBOW模型得到的相似词进行人工核查,并筛选出“创新注意力”拓展词集。
(二)注意力时间配置
跟上述做法相似,分三个步骤选取表征当下和表征未来的词集。
第一步参照陈守明和胡媛媛(2016)的做法,采用“现在”“此时”“此刻”“当下”“当前”“近期”“目前”作为表征关注当下的基础词,采用“未来”“即将”“将来”“将要”“接下来”“今后”作为表征将来的基础词。
第二步基于Word2vec中的 CBOW模型构造词向量空间,并在其中寻找近义词,筛选出词频数在1000词以上,和基础词相似度在30%以上。第三步邀请3名业界和学术界专家 CBOW模型得到的相似词进行人工核查,并筛选出包括“现在”“此时”等表征当下的词集,并得到包括“将来”“将要”等表征未来的词集。
时间跨度:2007-2023年
数据范围:中国A股上市公司
数据格式:Excel
包含指标:
股票代码 | 公司简称 | 年份 |
全文总词数 | 词集总词频 | 词频占MD&A总词频的比例 |
样例数据:
参考文献:余振,李元琨,李汛.外部关税冲击、企业家注意力配置与创新发展[J].世界经济,2024,47(6):65-94.
包含内容:
全部内容下载链接:
【工具变量】A股上市公司企业家注意力配置(2007-2023年)
(76 Bytes, 需要: RMB 19 元)


雷达卡



京公网安备 11010802022788号







