--------------------------------------------------------------------------------
本数据集包含中国A股上市公司分析师报告前瞻性相关指标数据,时间跨度为2007-2024年。
数据基于分析师报告文本分析,通过机器学习算法识别前瞻性句子,构建前瞻性指标。
二、理论背景
--------------------------------------------------------------------------------
前瞻性是指分析师对企业未来各方面的预测。通过机器学习算法对带有前瞻性标记的
语句进行训练与测试,统计出带有前瞻性的句子数量。前瞻性指标反映分析师报告中
对企业未来预测内容的占比,可用于研究分析师行为、信息披露质量等。
三、核心指标说明
--------------------------------------------------------------------------------
指标名称 计算公式 含义
--------------------------------------------------------------------------------
前瞻性 前瞻性句子数 / 句子数 分析师报告前瞻性比率
--------------------------------------------------------------------------------
【详细计算方法】
1. 前瞻性比率
计算公式:前瞻性 = Σ前瞻性句子数 / Σ句子数
原始变量说明:
- Numfwalksten(前瞻性句子数):具有前瞻性句子的总数量
- Numsten(句子数):文本的总句子数
Stata代码:
bysort stkcd year: egen bufen = sum(前瞻性句子数)
bysort stkcd year: egen zt = sum(句子数)
gen 前瞻性 = bufen / zt
2. 计算步骤说明:
步骤1:从发布日期(Reasdate)中提取年份
步骤2:按公司代码(stkcd)和年份(year)分组
步骤3:汇总每个公司每年所有分析师报告的前瞻性句子数
步骤4:汇总每个公司每年所有分析师报告的总句子数
步骤5:计算前瞻性比率 = 前瞻性句子数总和 / 句子数总和
步骤6:去除重复观测,保留公司-年度级别的唯一观测
3. 指标含义:
- 数值范围:0-1之间
- 数值越大,表示分析师对该公司未来预测的内容占比越高
- 例如:0.3表示分析师报告中30%的句子具有前瞻性
四、数据文件说明
--------------------------------------------------------------------------------
【原始数据文件】
上市公司分析师报告前瞻性原始数据.xlsx
- 包含分析师报告编号、股票代码、发布日期、前瞻性句子数、总句子数等
【计算结果文件】
计算结果完整版本.dta/.xls
- 按公司-年度汇总的前瞻性比率数据
【代码文件】
1. 上市公司分析师报告前瞻性数据计算代码.do - Stata版本计算代码
2. 上市公司分析师报告前瞻性数据计算代码.py - Python版本计算代码
五、变量说明
--------------------------------------------------------------------------------
变量名称 类型 说明
--------------------------------------------------------------------------------
【原始数据变量】
Senum 数值 分析师报告编号
Scode/stkcd 数值 上市公司股票代码
Reasdate 日期 分析师报告发布时间
Numfwalksten 数值 前瞻性句子数
Numsten 数值 总句子数
【计算结果变量】
stkcd 数值 上市公司股票代码
year 数值 年份
前瞻性 数值 上市公司分析师报告前瞻性比率
--------------------------------------------------------------------------------
六、使用说明
--------------------------------------------------------------------------------
1. 修改代码中的工作路径为实际数据存放路径
2. 运行计算代码,将报告级别数据汇总为公司-年度级别
3. 前瞻性比率以小数形式表示(如0.3表示30%)
七、数据处理说明
--------------------------------------------------------------------------------
1. 从发布日期提取年份信息
2. 按公司-年度汇总前瞻性句子数和总句子数
3. 计算前瞻性比率 = 前瞻性句子数总和 / 句子数总和
4. 去除重复观测,保留公司-年度级别的唯一观测
上市公司分析师报告前瞻性数据2007-2024年含do-python代码和excel-dta格式数据.zip
(22.48 MB, 需要: RMB 34 元)


雷达卡



京公网安备 11010802022788号







