【数据范围】A股上市公司
【时间范围】2007-2024年
【样本量】约69,941条
【整理时间】2025年12月
【适用研究】复刻《中国工业经济》“人工智能技术应用如何影响企业创新”基准回归(李玉花,2024),实证检验AI应用对上市公司创新的影响
一、数据文件
1) 原始数据:上市公司人工智能应用与创新数据.xlsx / .dta(包含全部观测与字段)
2) 处理代码:Stata dofile(含清洗、变量构造、缩尾、描述统计、基准回归);Python等价脚本(逻辑一致,便于跨环境复现)
3) 结果示例:描述性统计输出、基准回归结果表(esttab/summary)
二、关键指标构建
1) 人工智能技术应用
- AI技术应用A:上市公司年报中“人工智能”关键词频次,加1取对数
- AI技术应用B:MD&A中“人工智能”关键词频次,加1取对数
- 词典:基于机器学习方法构建“人工智能技术应用词典”匹配年报与MD&A
2) 企业创新
- 发明专利申请:当年发明专利申请量,加1取对数
3) 控制变量(示例)
- 企业规模(总资产,万元,对数)、企业年龄(上市年限,对数)
- 总资产收益率、资产负债率、营业收入增长率、研发强度(百分比转小数)
4) 数据处理
- 单位转换:百分比型变量 ÷100
- 对数处理:规模、年龄取ln;专利与AI词频加1取ln
- 缩尾处理:连续变量按1%-99% winsor(专利、AI A/B、规模、年龄、ROA、负债率、营收增速、研发强度)
- 缺失处理:核心变量或省份代码缺失则删除
- 样本筛选:2007-2024;剔除ST与金融类样本
- 面板设定:xtset 股票代码 年份;行业、省份可encode数值码
三、字段清单(主要)
- 标识:股票代码、股票简称、年份
- 地域:省份、城市、区县及其代码
- 行业:行业代码、行业名称
- 基本特征:企业上市年龄、总资产
- 财务/运营:营业收入增长率、资产负债率、总资产收益率、研发投入占营业收入比例
- AI指标:人工智能词频和、人工智能词频和加1取对数、人工智能MD&A词频和、人工智能MD&A词频和加1取对数
- 创新指标:企业发明专利申请量(及加1取对数)
四、基准回归设计(参考李玉花,2024)
- 被解释变量:发明专利申请(ln(申请量+1))
- 关键解释变量:AI技术应用A、AI技术应用B
- 控制变量:企业规模、企业年龄、ROA、资产负债率、营收增速、研发强度(可加行业/地区/年份固定效应)
- 模型:双向固定效应(公司、年份),聚类稳健标准误(行业×年份或公司×年份)
示例:reghdfe 发明专利申请 AI技术应用A [AI技术应用B] 控制变量, absorb(公司 年份) vce(cluster 行业 年份)
- 稳健性:可调整聚类口径、缩尾口径、分组回归或替换创新指标
五、代码运行要点(Stata)
- 路径:cd 至当前目录
- 导入:import excel "上市公司人工智能应用与创新数据.xlsx", firstrow clear
- 类型:destring 股票代码 年份 ...
- 重命名:AI技术应用A/B、发明专利申请、规模、年龄、财务指标
- 处理:单位转换、对数、winsor、缺失剔除、年份筛选、剔除ST/金融
- 面板:xtset 股票代码 年份;encode 行业/省份
- 回归:reghdfe ...,esttab 输出
六、代码运行要点(Python)
- 依赖:pandas、numpy、scipy、linearmodels(可选),sklearn(备用回归)
- 读取:pd.read_excel(...)
- 处理:同Stata(单位转换、对数、winsor、过滤、编码)
- 回归:linearmodels.PanelOLS 双向FE;未安装则用OLS作为备选
- 输出:打印描述性统计与回归结果,或导出xlsx/csv
七、参考文献
[1] 李玉花, 林雨昕, 李丹丹. 人工智能技术应用如何影响企业创新[J]. 中国工业经济, 2024(10):155-173.
八、使用提示
- 路径和文件名保持一致(原始数据.xlsx/.dta;处理代码 do/py)
- 确保winsor2已安装(Stata);Python中自定义winsor函数
- 回归聚类口径可按行业×年份或公司×年份调整
- 可扩展:加入滞后项、分组回归、替换创新指标(专利授权、三类专利等)
人工智能技术应用如何影响企业创新(2007-2024年).zip
(13.72 MB, 需要: RMB 29 元)


雷达卡



京公网安备 11010802022788号







