楼主: momingqimiao7
357 1

[经管数据集] 【推荐】上市公司人工智能指标词频Python处理代码(2001-2024年)赠送MD&A文本 [推广有奖]

经管之家资深用户 Stata小能手 原创数据 专注熟悉领域

已卖:60159份资源
好评率:100%
商家信誉:极好

巨擘

0%

还不是VIP/贵宾

-

TA的文库  其他...

论文数据收藏

stata技巧

统计学习

威望
1
论坛币
283555 个
通用积分
2114.8621
学术水平
3632 点
热心指数
3537 点
信用等级
3367 点
经验
475286 点
帖子
18218
精华
1
在线时间
65535 小时
注册时间
2009-11-23
最后登录
2026-1-22

初级热心勋章 初级学术勋章 中级热心勋章 高级热心勋章 初级信用勋章 特级热心勋章 20周年荣誉勋章

楼主
momingqimiao7 在职认证  学生认证  发表于 2025-7-12 22:14:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


人工智能指标



包含:
  • Python代码提取词频,画词云图
  • 管理层分析与讨论MD&A txt原始文本
  • 人工智能关键词
  • 最后处理好的结果

年报版本:https://bbs.pinggu.org/thread-15560112-1-1.html

计算说明


人工智能词典的生成
人工智能词典的生成步骤为:
(1)参考陈和斯里尼瓦桑(2020)提供的人工智能相关词语的中文翻译版、平
安证券发布的《科创板系列 — —AI产业链全景图》、中商产业研究院编制的《2019年中国人工智能行业市场前景研究报告》、深圳前瞻产业研究院发布的《2019年人工智能行业现状与发展趋势报告》等业界研究报告以及世界知识产权组织(World Intellectual Property Organization,WIPO)提供的人工智能词表,人工选取了“人工智能”、 “机
器学习”、 “物联网”、 “云计算”等 52 个词语作为种子词(Seed Words)。(2)参考李等(2021),使用Word2vec(米科洛夫等,2013)技术,采用 Skip-gram 模型,将年报和专利文本材料中的词语作为语料进行训练。根据种子词与输出词语之间的余弦相似度,针对每个种子词筛选出10个与该种子词语义程度最相近的词语。
(3)将重复词语、与人工智能不相关的词语以及词频过低的词语剔除,最终共获得73个词语,生成本文的人工智能词典。

具体人工智能词典如下:

人工智能

AI产品

AI芯片

机器翻译

机器学习

计算机视觉

人机交互

深度学习

神经网络

生物识别

图像识别

数据 挖掘

特征识别

语音合成

语音识别

知识图谱

智慧银行

智能保险

人机协同

智能监管

智能教育

智能客服

智能零售

智能农业

智能投顾

增强现实

虚拟现实

智能医疗

智能音箱

智能语音

智能政务

自动驾驶

智能运输

卷积神经网络

声纹识别

特征提取

无人驾驶

智能家居

问答系统

人脸识别

商业智能

智慧金融

循环神经网络

强化学习

智能体

智能养老

大数据营销

大数据风控

大数据处理

支持向量机(SVM)

长短期记忆(LSTM)

机器人流程自动化

自然语言处理

分布式计算

知识表示

智能芯片

可穿戴产品

大数据管理

智能传感器

模式识别

边缘计算

大数据平台

智能计算

智能搜索

物联网

云计算

増强智能

语音交互

智能环保

人机对话

深度神经网络

大数据运营


基于上市公司年报构建人工智能指标
      由于中文文字之间没有空格切分,而且词语才是能够独立运用的最小语言单位,因此需要对年报文本进
行专门的分词处理。我们使用广泛运用的Python开源“jieba”中文分词模块对上市公司年报文本进行分词处
理。中文文本分析存在3个难点,即切分颗粒度、歧义词识别以及新词的识别(姚加权等,2020)。例如, “机器学习”是人工智能的核心术语之一,但“jieba”分词模块会将其切分为“机器”和“学习”两个词语。为解决该问题,我们将生成的人工智能词典作为预设专有名词词典加入到“jieba”的分词模块并统计上市公司年报中人工智能词语的数量。采用上市公司年报中人工智能关键词数量加 1 的自然对数(Lnwords)作为企业人工智能指标。

值得说明的是,在统计“支持向量机(SVM)”词频时,词频等于该词语中英文词频的加总。另外,由于卷积神经网络(CNN)等词语的英文缩写在年报中具有歧义,例如 CNN 也可能表示美国有线电视新闻网,所以本文词典未纳入引起混淆的英文缩写。最后, “神经网络”和“卷积神经网络”在统计个数时并不会重复统计,因为统计的过程是在对文档的分词之后,并不是直接对原始文档进行统计,而分词后, “神经网络”和“卷积神经网络”会分为两个独立的词语,分别统计个数。

参考文献

[1]
姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.
[2]吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.

数据说明

数据对象:全部A股

数据区间:2000-2024年

结果说明


数据截图

QQ截图20250712222502.jpg

各年数据量

QQ截图20250712222419.jpg
描述性统计

QQ截图20250712222431.jpg

走势图
QQ截图20250712223015.jpg

词云图
222129kwkgtllsh7hhrrf9.jpg

附件下载


QQ截图20250712223318.jpg



【推荐】上市公司人工智能指标词频Python处理代码(2001-2024年)MD&A文本.zip (4.97 MB, 需要: RMB 98 元)






经管之家:momingiqmiao7
欢迎关注,分享更多实用的数据,独家发布,严禁转载获利,转载必究,有任何问题在可以帖子下方回复,及时回复

批量购买可享优惠

数据列表更新:
https://pan.baidu.com/s/1stzmHYvxuFokB2o5v7i1KA?pwd=8888



帖子索引2024年帖子索引2023年】【帖子索引2022年】【帖子索引2021年】【使用常见问题点击查看更多帖子】【Stata软件下载】【Stata免费学习资料




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Python处理 python 上市公司 人工智能 上市公

常用控制变量 https://bbs.pinggu.org/thread-15164021-1-1.html

沙发
momingqimiao7(未真实交易用户) 在职认证  学生认证  发表于 2025-7-12 22:36:22
数据名称数据链接更新至年份
包含财务指标、公司治理、交易数据https://bbs.pinggu.org/thread-15125852-1-1.html2024
季度版本2024年第一季度https://bbs.pinggu.org/thread-15132507-1-1.html2024
常用控制变量集合https://bbs.pinggu.org/thread-15164021-1-1.html2024
常用控制变量集合季度版本https://bbs.pinggu.org/thread-11801719-1-1.html2023
常用控制变量集合拓展版https://bbs.pinggu.org/thread-11815858-1-1.html2023
常用分组/调节变量数据整理https://bbs.pinggu.org/thread-11826184-1-1.html2023
实证分析常用代码整理合集https://bbs.pinggu.org/thread-10980403-1-1.html2023
明星分析师关注https://bbs.pinggu.org/thread-15256848-1-1.html2024
【必备】A股上市公司基础信息(行业、省份、城市、区域、高新技术企业、上市年份等)https://bbs.pinggu.org/thread-11808931-1-1.html2023
★筛选数据★沪深A股是否ST、*ST或PT数据整理https://bbs.pinggu.org/thread-15164044-1-1.html2024
上市公司论文实证分析筛选样本所用数据指标https://bbs.pinggu.org/thread-11848903-1-1.html2023
创新投入/创新产出/创新效率/专利申请/专利授权/研发投入https://bbs.pinggu.org/thread-11823452-1-1.html2023
上市公司创新水平和创新效率指标计算Stata代码(附2008-2023年数据)https://bbs.pinggu.org/thread-11991103-1-1.html2023
【数据包络分析DEA】上市公司创新效率指标计算2006-2023年数据https://bbs.pinggu.org/thread-11844597-1-1.html2023
上市公司绿色创新指标大全https://bbs.pinggu.org/thread-11840534-1-1.html2023
二元式创新绩效/双元创新能力https://bbs.pinggu.org/thread-12207094-1-1.html2023
创新质量-被引用专利数量https://bbs.pinggu.org/thread-13621674-1-1.html2023
技术多元化/知识多元化指标https://bbs.pinggu.org/thread-12286238-1-1.html2023
上市公司数字化转型程度指标计算Stata代码(2001-2023年数据)https://bbs.pinggu.org/thread-15681696-1-1.html2024
中国经济政策不确定EPU季度数据整理1995-2023年(附Stata代码)https://bbs.pinggu.org/thread-15245715-1-1.html2024
高管海外经历/金融背景/学术背景/财务背景/性别/年龄/持股比例2008-2023年(附Stata代码)https://bbs.pinggu.org/thread-12286295-1-1.html2023
华证ESGhttps://bbs.pinggu.org/thread-15209014-1-1.html2024
商道融绿ESGhttps://bbs.pinggu.org/thread-15626800-1-1.html2024
WindESGhttps://bbs.pinggu.org/thread-11800900-1-1.html2023
儒家文化https://bbs.pinggu.org/thread-15458629-1-1.html2024
动态能力包含创新能力、吸收能力和适应能力https://bbs.pinggu.org/thread-15624757-1-1.html2024
上市公司专利质量指标计算Stata代码(1990-2023年)知识宽度张杰https://bbs.pinggu.org/thread-11991540-1-1.html2023
上市公司专利质量指标计算Stata代码(1990-2023年)知识宽度李宏https://bbs.pinggu.org/thread-12025171-1-1.html2023
非金融企业影子银行指标https://bbs.pinggu.org/thread-11822788-1-1.html2023
上市企业声誉https://bbs.pinggu.org/thread-11819276-1-1.html2023
股价信息含量知情交易概率https://bbs.pinggu.org/thread-14988415-1-1.html2024
企业ESG表现会影响审计意见吗实证分析Stata代码(2009-2022年数据)https://bbs.pinggu.org/thread-11566412-1-1.html2023
基于DEA方法的融资效率指标计算(A股上市公司2000-2023年数据)https://bbs.pinggu.org/thread-13060312-1-1.html2023
数字金融发展程度工具变量-与杭州球面距离与省会城市球面距离https://bbs.pinggu.org/thread-11567235-1-1.html2023
宗族文化https://bbs.pinggu.org/thread-11580060-1-1.html2023
上市公司独立董事履职行为数据包含独董参会率、投非赞成票等(2004-2022年)https://bbs.pinggu.org/thread-11596865-1-1.html2023
上市公司环境信息披露质量指标分货币型和非货币型整理Stata代码(2008-2023年数据)https://bbs.pinggu.org/thread-11845280-1-1.html2023
智能化投资(硬件投资和软件投资)(2001-2023年数据)https://bbs.pinggu.org/thread-11823692-1-1.html2023
上市银行风险承担指标(Z值、不良贷款率和风险资产比率)(2000-2023年数据)https://bbs.pinggu.org/thread-11826409-1-1.html2023
上市企业经济政策不确定性感知指标赠送Python处理代码和管理层分析与讨论文本(2001-2023年数据)https://bbs.pinggu.org/thread-11828689-1-1.html2023
上市公司和客户共同分析师跟踪指标整理Stata代码(附2006-2023年数据)https://bbs.pinggu.org/thread-11828783-1-1.html2023
地区要素市场错配水平https://bbs.pinggu.org/thread-11828808-1-1.html2023
上市公司审计师—客户匹配度计算Stata代码附2005-2023年数据会计信息可比性https://bbs.pinggu.org/thread-11829407-1-1.html2023
上市公司人工智能指标人工智能词频Python处理代码 年报文本https://bbs.pinggu.org/thread-15560112-1-1.html2024
上市公司人工智能指标人工智能词频Python处理代码 管理层讨论与分析https://bbs.pinggu.org/thread-15940329-1-1.html2024
上市公司数据资产信息披露水平指标整理Python代码附2001-2023年数据https://bbs.pinggu.org/thread-15558924-1-1.html2024
上市公司数据资产化整理Python代码(2001-2023年数据)分自用和交易型https://bbs.pinggu.org/thread-15558671-1-1.html2024
事件研究Stata代码更新(绘走势图、直接生成最终结果表格)https://bbs.pinggu.org/thread-7006714-1-1.html-
事件研究Stata代码更新 增加分组https://bbs.pinggu.org/thread-8070617-1-1.html-
事件研究BHAR计算https://bbs.pinggu.org/thread-10535704-1-1.html-
事件研究-常量均值模型(针对股指)https://bbs.pinggu.org/thread-7020229-1-1.html-
中国区域创新能力https://bbs.pinggu.org/thread-15750368-1-1.html2024
常用控制变量 https://bbs.pinggu.org/thread-15164021-1-1.html

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-25 10:31