本数据为公开数据,仅供学术科研使用,绝不涉及任何违规或保密信息!
数据整体介绍:
本数据参考刘凌冰,王语彤,耿会欣(2024)的做法,构建上市公司数智化指标(2001-2023)。
首先,我们基于A股上市公司年报的文本数据,利用上市公司行业分类名单,剔除金融业和保险业的公司以及ST和期间退市的样本,对筛选出的制年报进行中文分词处理,参考哈工大停用词表,过滤掉年报文本中的停用词,即提取有效词汇,随后基于预定义的数智化专业词典识别行业特征术语,其中部分数智化识别术语如下:
“智能金融合约”,“机器学习”,“流计算”,“深度学习”,“混合现实”,“差分隐私技术”,“智能医疗”,“电子商务”,“…..”
分别计算各公司年报中特征术语的绝对出现频次及其占总文本词汇量的相对比重,由于这类数据具有典型的 “右偏性” 特征, 对其进行对数化处理 (即加 1 后取自然对数) , 从而得到刻画企业数智化程度的整体指标。
如果遇到数据表格需要密码才能使用 ,请各位将数据整体复制到一个新的Excel中即可使用。
统计口径:A股上市公司
时间范围:2001-2023
样本数量:422w+
数据来源:A股上市公司年报文本
数据格式:单张Excel数据、参考文献pdf
数据指标:具体词频指标见商品图,仅预览。
更新时间:2025年6月
文件大小:15.22MB
参考文献:[1]刘凌冰,王语彤,耿会欣.企业数智化与量化预算目标信息披露行为[J].会计研究,2024,(11):63-78.


雷达卡




京公网安备 11010802022788号







