本数据集基于中国A股上市公司ESG评级数据,计算了上市公司ESG绩效期望差距
(ESG_GAP)和期望落差(NGAP)指标。数据涵盖2010-2024年中国A股上市公司,
综合考虑了上市公司当期ESG表现、历史表现以及所属行业平均水平,可用于研究
上市公司ESG绩效期望落差对企业行为和市场表现的影响。
【指标1】企业ESG表现(FirmESG)
定义:上市公司年度ESG综合表现得分
计算方法:对上市公司各季度ESG评级赋值取年度平均值
取值范围:连续变量,数值越大表示上市公司ESG表现越好
研究意义:反映上市公司在环境、社会和治理三个维度的整体履责水平
【指标2】行业ESG表现(IndusESG)
定义:上市公司所属行业的ESG年度平均水平
计算方法:按行业分类(制造业采用二级代码,其他行业采用一级代码),
对同行业所有上市公司的FirmESG求年度平均值
取值范围:连续变量,反映行业整体ESG水平
研究意义:作为上市公司ESG期望的行业基准
【指标3】企业ESG绩效期望差距(ESG_GAP)
定义:上市公司实际ESG表现与社会期望水平的差距
计算公式:ESG_GAP = FirmESG - 0.5×FirmESG(t-1) - 0.5×IndusESG
取值范围:连续变量,可正可负
- ESG_GAP > 0:上市公司ESG表现超出期望(正向差距)
- ESG_GAP < 0:上市公司ESG表现低于期望(负向差距)
- ESG_GAP = 0:上市公司ESG表现符合期望
理论依据:社会期望理论(Expectation Theory)
上市公司的期望水平由两部分构成:
1. 历史表现期望(50%权重):基于上市公司过去表现的惯性预期
2. 行业标准期望(50%权重):基于同行业平均水平的对标预期
【指标4】虚拟变量(I)
定义:上市公司是否存在负向期望差距的二元变量
计算方法:若ESG_GAP < 0,则I = 1;否则I = 0
取值范围:{0, 1}
- I = 1:上市公司ESG表现未达期望(存在负向差距)
- I = 0:上市公司ESG表现达到或超过期望
研究意义:用于识别上市公司ESG绩效不足的样本
【指标5】企业ESG绩效期望落差(NGAP)★核心指标★
定义:上市公司ESG表现低于期望时的落差程度
计算公式:NGAP = |I × ESG_GAP|
取值范围:[0, +∞),非负连续变量
- NGAP = 0:上市公司ESG表现达到或超过期望(无落差)
- NGAP > 0:上市公司ESG表现低于期望,数值越大表示落差越严重
理论依据:威胁刚性理论(Threat-Rigidity Theory)
负向绩效反馈理论(Negative Performance Feedback Theory)
研究意义:该指标专注于捕捉上市公司ESG表现"未达标"的情况,
可用于研究期望落差对上市公司战略调整、融资约束、
市场估值等方面的影响
三、数据文件结构
【原始数据文件】
1. 上市公司ESG绩效数据.dta / .xlsx
- 包含上市公司证券代码、证券简称、年份、季度、ESG评级赋值
- 包含上市公司行业代码、行业名称、所属省份、所属城市等基本信息
【计算结果文件(三个版本)】
版本1:计算结果未剔除金融STPT未缩尾版本.dta / .xlsx
适用场景:需要全样本分析的研究
样本范围:保留所有A股上市公司(剔除B股)
数据处理:未进行行业剔除和极端值处理
推荐用途:描述性统计、全市场分析、行业对比研究
版本2:计算结果已剔除金融STPT未缩尾版本.dta / .xlsx
适用场景:一般实证研究的主回归分析
样本范围:剔除金融业(行业代码含"J")和ST、PT等特殊处理上市公司
数据处理:剔除异常样本,但保留原始数据分布
推荐用途:主回归分析、机制检验、异质性分析
版本3:计算结果已剔除金融STPT已缩尾版本.dta / .xlsx
适用场景:稳健性检验和对极端值敏感的分析
样本范围:同版本2
数据处理:在版本2基础上,对"企业ESG绩效期望差距"和
"企业ESG绩效期望落差"按年度进行前后1%缩尾处理
推荐用途:稳健性检验、减少极端值影响的回归分析
【代码文件】
1. 上市公司ESG绩效期望落差数据计算代码.do(Stata版本)
- 兼容Stata 15及以上版本
- 使用UTF-8编码
- 包含详细注释
2. 上市公司ESG绩效期望落差数据计算代码.py(Python版本)
- 需要pandas、numpy库
- 与Stata版本逻辑完全一致
- 适用于Python数据分析环境
3. 上市公司ESG绩效期望落差数据评估代码.do / .py
- 自动化数据质量评估
- 生成"评估结果"文件夹,包含数据分布、异常值检验、
逻辑合理性验证、稳健性测试等完整分析报告
四、变量详细说明
【基础标识变量】
变量名 | 类型 | 说明
--------------|--------|-----------------------------------------------
证券代码 | 字符串 | 上市公司6位证券代码(如"000001")
证券简称 | 字符串 | 上市公司简称(如"平安银行")
stkcd | 数值 | 证券代码的数值形式
year | 数值 | 年份(2010-2024)
【核心指标变量】
变量名 | 类型 | 说明
--------------------------|--------|---------------------------------------
企业ESG表现 | 数值 | 上市公司年度ESG综合得分
行业ESG表现 | 数值 | 上市公司所属行业年度ESG平均水平
企业ESG绩效期望差距 | 数值 | 上市公司ESG实际表现与期望的差距
虚拟变量 | 0/1 | 是否存在负向期望差距(1=是)
企业ESG绩效期望落差 | 数值 | 上市公司ESG表现低于期望时的落差程度
【行业与地区变量】
变量名 | 类型 | 说明
--------------|--------|-----------------------------------------------
行业代码 | 字符串 | 证监会行业分类代码
行业名称 | 字符串 | 上市公司所属行业名称
所属省份 | 字符串 | 上市公司注册地省份
所属省份代码 | 字符串 | 省份代码
所属城市 | 字符串 | 上市公司注册地城市
所属城市代码 | 字符串 | 城市代码
五、数据样本说明
【时间跨度】2010-2024年(15年)
【样本范围】
- 基础样本:中国A股上市公司
- 剔除样本:
· B股(证券代码以2或9开头)
· 金融业(行业代码包含"J",仅在版本2和版本3中剔除)
· ST、PT等特殊处理上市公司(仅在版本2和版本3中剔除)
【数据特征】
- 数据结构:非平衡面板数据(Unbalanced Panel Data)
- 观测频率:年度数据
- 缺失值处理:ESG_GAP缺失的观测值已被剔除
【样本量参考】(具体样本量根据实际数据可能有所不同)
- 版本1(未剔除):约30,000+观测值
- 版本2(已剔除):约25,000+观测值
- 版本3(已缩尾):与版本2样本量相同,但数值分布有调整
六、数据质量说明
【数据来源质量】
- 原始数据来源于权威ESG评级机构
- ESG评级采用国际通行的评级标准和方法
- 行业与地区信息来自主流金融数据库
【计算准确性】
- 指标计算基于成熟的学术理论框架
- 代码经过严格测试和验证
- 提供Stata和Python双语言版本,可交叉验证
【数据完整性】
- 保留了上市公司基础信息(代码、简称、行业、地区)
- 提供三个版本数据,满足不同研究需求
- 附带完整的计算代码,可追溯和复现
【异常值处理】
- 版本1和版本2:保留原始数据分布
- 版本3:对连续变量进行1%缩尾处理
- 详细的异常值检验报告见"评估结果/异常值检验"文件夹
七、使用建议
【研究设计建议】
1. 主回归分析:建议使用版本2(已剔除金融STPT未缩尾版本)
- 剔除了金融业和异常样本,符合常规实证研究惯例
- 保留了原始数据分布,便于经济意义解释
2. 稳健性检验:建议使用版本3(已剔除金融STPT已缩尾版本)
- 可用于检验极端值对回归结果的影响
- 也可作为主回归的替代方案
3. 全样本分析:建议使用版本1(未剔除金融STPT未缩尾版本)
- 适用于需要包含金融业的研究
- 适用于行业对比研究
【实证模型建议】
1. 固定效应模型(Fixed Effects Model)
- 控制上市公司个体固定效应和年份固定效应
- 代码示例(Stata):
xtreg Y 企业ESG绩效期望落差 控制变量, fe vce(cluster stkcd)
2. 双向固定效应模型(Two-way Fixed Effects)
- 控制上市公司固定效应和年份固定效应
- 代码示例(Stata):
reghdfe Y 企业ESG绩效期望落差 控制变量, absorb(stkcd year) vce(cluster stkcd)
3. 倾向得分匹配(PSM)
- 使用"虚拟变量"(I)作为处理变量
- 比较有期望落差(I=1)和无期望落差(I=0)的上市公司
【控制变量建议】
1. 上市公司层面:
- 企业规模(资产总额、营业收入)
- 盈利能力(ROA、ROE)
- 成长能力(营收增长率、资产增长率)
- 财务杠杆(资产负债率)
- 股权结构(第一大股东持股比例、股权集中度)
- 企业年龄(上市年限)
2. 行业层面:
- 行业集中度(HHI指数)
- 行业平均增长率
- 行业固定效应
3. 宏观层面:
- GDP增长率
- 货币政策(M2增速)
- 年份固定效应
【注意事项】
1. 时间滞后处理:
- ESG_GAP的计算已使用了上期FirmESG(l.FirmESG)
- 因此第一年(2010年)的数据可能存在缺失
- 建议在回归分析时关注样本量变化
2. 内生性问题:
- ESG绩效可能与因变量存在反向因果关系
- 建议使用工具变量(IV)或系统GMM方法
- 可考虑使用行业平均ESG表现作为工具变量
3. 异质性分析:
- 可按行业、地区、企业规模、所有制性质等进行分组回归
- 可使用交互项检验调节效应
4. 稳健性检验:
- 更换被解释变量的度量方式
- 更换样本区间(排除特殊年份)
- 更换核心解释变量(使用ESG_GAP替代NGAP)
八、参考文献
本数据的理论基础和计算方法参考以下文献:
[1] Cyert, R. M., & March, J. G. (1963). A behavioral theory of the firm.
Englewood Cliffs, NJ: Prentice-Hall.
(期望理论的经典文献)
[2] Staw, B. M., Sandelands, L. E., & Dutton, J. E. (1981). Threat-rigidity
effects in organizational behavior: A multilevel analysis.
Administrative Science Quarterly, 26(4), 501-524.
(威胁刚性理论)
[3] Greve, H. R. (2003). Organizational learning from performance feedback:
A behavioral perspective on innovation and change.
Cambridge University Press.
(绩效反馈理论)
[4] 配套参考文献:
详见本文件夹中的PDF文档:
"ESG绩效期望落差的供应链溢出效应——来自商业信用融资的经验证据.pdf"
九、技术支持与引用说明
【数据复现】
- 本数据提供完整的Stata和Python计算代码
- 运行"上市公司ESG绩效期望落差数据计算代码.do"或".py"即可复现结果
- 代码包含详细注释,便于理解和修改
【数据评估】
- 运行"上市公司ESG绩效期望落差数据评估代码.do"或".py"
- 自动生成"评估结果"文件夹,包含:
· 数据分布分析(描述性统计、分年度/行业/地区统计)
· 异常值检验(IQR方法、异常值分布图)
· 逻辑合理性验证(变量相关性、逻辑验证)
· 稳健性测试(不同版本对比、面板平衡性检验)
十、附录:快速上手指南
【Step 1】了解数据结构
打开任一Excel文件(推荐先看版本2),熟悉变量名称和数据格式
【Step 2】选择合适的数据版本
- 主回归 → 版本2(已剔除金融STPT未缩尾版本)
- 稳健性检验 → 版本3(已剔除金融STPT已缩尾版本)
- 全样本分析 → 版本1(未剔除金融STPT未缩尾版本)
【Step 3】导入数据
Stata示例:
use "计算结果已剔除金融STPT未缩尾版本.dta", clear
describe
summarize
Python示例:
import pandas as pd
df = pd.read_stata("计算结果已剔除金融STPT未缩尾版本.dta")
print(df.info())
print(df.describe())
【Step 4】描述性统计
Stata示例:
tabstat 企业ESG绩效期望落差, by(year) stat(mean sd min max) format(%9.4f)
【Step 5】回归分析
Stata示例(固定效应):
xtset stkcd year
xtreg Y 企业ESG绩效期望落差 控制变量, fe vce(cluster stkcd)
【Step 6】查看数据评估报告(可选)
运行评估代码后,进入"评估结果"文件夹,查看:
- 上市公司数据评估汇总报告.xlsx(总览)
- 各子文件夹中的详细分析图表
祝您研究顺利!
上市公司ESG绩效期望落差数据2010-2024年含do-python代码和excel-dta格式数据.zip
(23.7 MB, 需要: RMB 38 元)


雷达卡



京公网安备 11010802022788号







