论文常用上市公司数据整理
1、数据格式
dta格式(stata14/15/16版本)
需要安装包可以该帖免费下载:下载地址
提供基础数据包整理代码
2、数据包含
基础数据包:
- 资产负债表
- 利润表
- 现金流量表(直接法)
- 现金流量表(间接法)
- 偿债能力
- 披露财务指标
- 比率结构
- 经营能力
- 盈利能力
- 现金流分析
- 风险水平
- 发展能力
- 每股指标
- 相对价值指标(托宾Q值、账面市值比)
- 股利分配
- 治理综合信息(董事人数、独立董事人数、董事监事及高管年薪总额 董事监事及高管前三名薪酬总额 董事长与总经理兼任情况等)
- 股东股权集中度(包含第1大、前3大、前5大、前10大股东持股比例之和以及Herfindahl指数、股权制衡度等)
- 流通股东股权集中度
- 公司文件
包含特色整理指标:上市年份(便于计算上市公司年龄或者剔除当年IPO的数据),行业(以证监会2012行业分类标准,制造业用二级行业分类,其他行业用一级行业分类),市场类型,是否ST(以最新的是否ST来判断,如果需要根据当年是否ST,可以参考该贴https://bbs.pinggu.org/thread-10351009-1-1.html)
拓展数据包:
- 个股回报率(周期包括:日、周、月、年)
- 市场回报率(周期包括:日、周、月、年)
市场类型字段对应编码:1=上海A,2=上海B,4=深圳A,8=深圳B,16=创业板,32=科创板
- 综合市场回报率(周期包括:日、周、月、年)
5=综合A股市场, 10=综合B股市场, 15=综合AB股市场, 21=综合A股和创业板; 31=综合AB股和创业; 37=综合A股和科创板; 47=综合AB股和科创板; 53=综合A股和创业板和科创板; 63=综合AB股和创业板和科创板。
- 指数
- 无风险利率(定期整存整取一年利率)
- 三因子数据(包含周期:日、周、月)
- 四因子数据(包含周期:月)
- 五因子数据(包含周期:日、周、月)
- 股东股权质押统计表和明细(可以筛选控股股东股权质押数据)
- 个股非流动性Amihud指标(日、月、年)
- 投资者情绪指数
- 计算操控性利润和非操控性应计利润计算所需数据
- 研发支出/研发投入(研发费用 费用化 资本化)
- 汇率
- 交易日历
- 三会基本信息
- 股东大会信息文件
- 股权性质(介绍:https://bbs.pinggu.org/thread-10544920-1-1.html)
- 社会责任报告数据(和讯网)(介绍:https://bbs.pinggu.org/thread-10602192-1-1.html)
- 十大股东、十大流通股东持股比例明细
- 机构投资者持股比例(Wind)https://bbs.pinggu.org/thread-10607278-1-1.html
- 分析师预测指标文件
- 分析师特色指标(是否四大、分析师跟踪人数、研报关注度、上市公司透明度)
- 董监高个人特征文件(性别、年龄、学历、职业背景、海外背景、学术背景、金融背景等)(2020年暂时不全,后续更新)
- 高管个人资料文件(性别、年龄、教育背景、任期等)
3、数据说明
- 精心整理以便写论文方便
- 数据起始时间都是公司上市开始到2020年
- 数据只有沪深A股上市公司(包括主板、中小板、创业板、科创板),不包含B股上市公司
- 只有保留年度数据,报表类型只保留合并报表
- 所有数据统计证券代码字段为stkcd,年份字段为year,以便以合并匹配
- 注意:stkcd字段类型为数字,1即代表股票000001,为了便于匹配同时提供证券代码字段(字符型)