人工智能指标
包含:
- Python代码提取词频,画词云图
- 管理层分析与讨论MD&A txt原始文本
- 人工智能关键词
- 最后处理好的结果
年报版本:https://bbs.pinggu.org/thread-11831153-1-1.html
计算说明
人工智能词典的生成
人工智能词典的生成步骤为:
(1)参考陈和斯里尼瓦桑(2020)提供的人工智能相关词语的中文翻译版、平
安证券发布的《科创板系列 — —AI产业链全景图》、中商产业研究院编制的《2019年中国人工智能行业市场前景研究报告》、深圳前瞻产业研究院发布的《2019年人工智能行业现状与发展趋势报告》等业界研究报告以及世界知识产权组织(World Intellectual Property Organization,WIPO)提供的人工智能词表,人工选取了“人工智能”、 “机器学习”、 “物联网”、 “云计算”等 52 个词语作为种子词(Seed Words)。(2)参考李等(2021),使用Word2vec(米科洛夫等,2013)技术,采用 Skip-gram 模型,将年报和专利文本材料中的词语作为语料进行训练。根据种子词与输出词语之间的余弦相似度,针对每个种子词筛选出10个与该种子词语义程度最相近的词语。
(3)将重复词语、与人工智能不相关的词语以及词频过低的词语剔除,最终共获得73个词语,生成本文的人工智能词典。
具体人工智能词典如下:
人工智能 | AI产品 | AI芯片 | 机器翻译 | |
计算机视觉 | 人机交互 | 生物识别 | ||
图像识别 | 数据 挖掘 | 特征识别 | 语音合成 | 语音识别 |
智慧银行 | 智能保险 | 人机协同 | 智能监管 | |
智能教育 | 智能客服 | 智能零售 | 智能农业 | 智能投顾 |
增强现实 | 虚拟现实 | 智能医疗 | 智能音箱 | 智能语音 |
智能政务 | 自动驾驶 | 智能运输 | 卷积神经网络 | 声纹识别 |
特征提取 | 无人驾驶 | 智能家居 | 问答系统 | 人脸识别 |
商业智能 | 智慧金融 | 循环神经网络 | 强化学习 | 智能体 |
智能养老 | 大数据营销 | 大数据风控 | 大 | 大数据处理 |
支持向量机(SVM) | 长短期记忆(LSTM) | 机器人流程自动化 | 自然语言处理 | 分布式计算 |
知识表示 | 智能芯片 | 可穿戴产品 | 大数据管理 | 智能传感器 |
模式识别 | 边缘计算 | 大数据平台 | 智能计算 | 智能搜索 |
物联网 | 云计算 | 増强智能 | 语音交互 | 智能环保 |
人机对话 | 深度神经网络 | 大数据运营 |
基于上市公司年报构建人工智能指标
由于中文文字之间没有空格切分,而且词语才是能够独立运用的最小语言单位,因此需要对年报文本进
行专门的分词处理。我们使用广泛运用的Python开源“jieba”中文分词模块对上市公司年报文本进行分词处
理。中文文本分析存在3个难点,即切分颗粒度、歧义词识别以及新词的识别(姚加权等,2020)。例如, “机器学习”是人工智能的核心术语之一,但“jieba”分词模块会将其切分为“机器”和“学习”两个词语。为解决该问题,我们将生成的人工智能词典作为预设专有名词词典加入到“jieba”的分词模块并统计上市公司年报中人工智能词语的数量。采用上市公司年报中人工智能关键词数量加 1 的自然对数(Lnwords)作为企业人工智能指标。
值得说明的是,在统计“支持向量机(SVM)”词频时,词频等于该词语中英文词频的加总。另外,由于卷积神经网络(CNN)等词语的英文缩写在年报中具有歧义,例如 CNN 也可能表示美国有线电视新闻网,所以本文词典未纳入引起混淆的英文缩写。最后, “神经网络”和“卷积神经网络”在统计个数时并不会重复统计,因为统计的过程是在对文档的分词之后,并不是直接对原始文档进行统计,而分词后, “神经网络”和“卷积神经网络”会分为两个独立的词语,分别统计个数。
参考文献
[1]姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.
[2]吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
数据说明
数据对象:全部A股
数据区间:2000-2023年
结果说明
数据截图
各年数据量
描述性统计
走势图
词云图
附件下载
【推荐】上市公司人工智能指标词频Python处理代码(2001-2023年)MD&A文本.zip
(4.03 MB, 需要: RMB 98 元)
经管之家:momingiqmiao7
欢迎关注,分享更多实用的数据,独家发布,严禁转载获利,转载必究,有任何问题在可以帖子下方回复,及时回复
批量购买可享优惠
【关注】【帖子索引2023年】【帖子索引2022年】【帖子索引2021年】【使用常见问题】【点击查看更多帖子】【Stata软件下载】【Stata免费学习资料】



雷达卡






京公网安备 11010802022788号







