楼主: zhaozimeng
7054 105

[数据集] (更新)1990-2019年中国上市公司数据(最全!含数据处理)   [分享]

VIP1+

讲师

4%

(VIP/贵宾)二级

73%

威望
0
论坛币
8589 个
通用积分
4.0825
学术水平
16 点
热心指数
16 点
信用等级
16 点
经验
11032 点
帖子
178
精华
1
在线时间
471 小时
注册时间
2019-3-22
最后登录
2020-9-29

zhaozimeng 在职认证  发表于 2020-8-4 10:37:00 |显示全部楼层

更新!终于整理完了!本数据为1990-2019年的上市公司数据数据更新时间为20207月(最新噢!)。在上一版本的基础上,根据大家的反馈和自身研究的需要,本次作出了多方面的更新和完善(足足弄了一周一时间,光处理dofile文件就2600多行!累死宝贝了555),目前共有1130个变量(由于变量过多就不在正文中列示了,附件中提供了免费的变量说明文件,请大家先行查阅!!!),50186个观测值包括(1)上市公司基本信息;(2)股票市场交易;(3)财务报表;(4)财务指标分析;(5)民营上市公司;(6)治理结构;(7)股东;(8)股权性质;(9)财务报告审计意见;(10)内部控制;(11)上市公司贷款;(12)上市公司研发;(13)诉讼仲裁等十余个数据库。

本次主要更新内容以及数据特色如下:1.样本区间更新:2019年上市公司年报公布后,补充完善了2019年各个变量的数据;2.涵盖的数据和变量扩展:如上所说,新增了审计意见、内部控制、上市公司贷款、研发专利、诉讼仲裁等多个数据库,变量由原来的800多扩展到1130个;3.省市区域的完善处理:我看到很多人问上市公司所在的省市区域,特别是上市公司所在的城市,本数据进行多方面的补全,既包括数据库本身涵盖的上市公司所在省、所在城市,也包括本人通过正则表达式分别利用上市公司注册地和办公地提取的上市公司所在城市,同时根据所在城市生成了东中西三大区域的虚拟变量;4.添加上市公司所在省市行政代码:本人利用stata爬取了省市的行政区划代码并与上市公司所在省市进行了匹配,同时本数据中提供了上市公司的经纬度,可以直接用来生成空间权重矩阵,如果你有地图图层数据,也可以直接通过spmapgrmap进行stata绘图(我自己做了一个例子,请看下文图片),方便大家进行空间计量的研究;5.控制权和股权性质梳理:也有很多人问如何区分国有和非国有,如何区分控制权性质等等,本数据也进行了很好的梳理(见如下说明)。

针对问题的说明:1.问题一:这么多变量如何找到自己需要的变量?答:可以用lookfor命令,大家输入“lookfor 关键词”,可以将变量名称和变量标签涵盖关键词的变量列示出来。2.问题二:上市公司所在省市哪里有?答:上市公司所在省在“内部控制”数据库,上市公司所在城市在“上市公司贷款”数据库。另外多个数据库提供了上市公司注册地和办公地的字符串信息,本人利用正则表达式等方法生成了“上市公司所在城市-依据注册地”和“上市公司所在城市-依据办公地地”两个变量,以上省市及其行政代码,可以通过“lookfor city”、“lookfor City、“lookfor 城市”、“lookfor 省”、“lookfor 地”查找,当然,我已经把它们放在一起了,很容易对比使用。3.问题三:怎么区分国有非国有,怎么区分控股权性质?股权性质数据库来源如下:(1EquityNature——"股权性质-股权性质数据库";(2EquityNatureID——"股权性质编码-股权性质数据库";(3S0702b——"实际控制人性质-股东数据库-股权信息-上市公司控制人";(4S0703b——"实际控制人拥有上市公司股份性质-股东数据库";(5Ownership——"公司性质-上市公司贷款数据库-公司基本信息"。本文根据上述变量自己生成了两个虚拟变量:(6govcon1——是否为国有控股-依据实际控制人性质筛选;(7govcon2——是否为国有控股-依据国家股和国有法人股筛选。处理过程详见dofile文档。同时利用同一公司相邻年份的股权性质分别补全上述六个变量的缺失值,生成上述六个变量不含缺失值的新变量。这样关于股权性质的变量就一共有12个了。大家可以根据需要使用(至于为什么不同划分方法得到的结果不一致,还需要大家自己研究一下,这里就不过多比较了)。

本数据采用百度网盘链接方式,如有问题可以留言。文件夹内容如下

1.csv:xlsx 或 csv 格式导入数据;

2.lab:部分变量标签数据

3.out:dta 格式过程输出数据;

4.上市公司数据处理全过程:数据处理 do 文件

5.GTA2019:最终 dta 格式数据

6.使用说明:txt 格式说明文件

购买链接:

变量说明.xlsx (38.72 KB)

最新1990-2019上市公司数据 (76 Bytes, 需要: RMB 149 元)

展示图片.png


中国各城市上市公司注册地分布.png

中国各城市上市公司办公地分布.png


已有 3 人评分经验 论坛币 收起 理由
remlus + 100 精彩帖子
xujingtang + 80 精彩帖子
日新少年 + 100 精彩帖子

总评分: 经验 + 180  论坛币 + 100   查看全部评分

本帖被以下文库推荐

stata SPSS
我们来数月亮吧 学生认证  发表于 4 小时前 |显示全部楼层
是否包含政治关联数据
回复

使用道具 举报

cpc_4302 发表于 4 小时前 |显示全部楼层
能否开发票呢,谢谢
回复

使用道具 举报

zhaozimeng 在职认证  发表于 11 小时前 来自手机 |显示全部楼层
fbbhh 发表于 2020-9-28 20:07
请问财务数据是季度的还是年度的?
你好,是年度的,主要为了整体弄成年度面板数据,当然,季度数据其实也很容易
回复

使用道具 举报

fbbhh 学生认证  发表于 昨天 20:07 |显示全部楼层
请问财务数据是季度的还是年度的?
回复

使用道具 举报

zhaozimeng 在职认证  发表于 昨天 10:30 来自手机 |显示全部楼层
jingzhenshu 发表于 2020-9-27 10:29
先收藏咧
欢迎再次光临
回复

使用道具 举报

zhaozimeng 在职认证  发表于 2020-9-27 17:47:21 |显示全部楼层
SophyZeng 发表于 2020-9-27 15:23
楼主你好,请问:(更新)1990-2019年中国上市公司数据(最全!含数据处理)13种分类内容都是来源于国泰安吗 ...
数据来源为国泰安上市公司研发创新子库,研发投入情况表是上市公司定期报告披露的研发投入情况,国泰安目前提供的全部数据是从2007开始的;研发支出表是上市公司定期报告披露的各项研发支出情况及会计处理,也是从2007开始。均存在一定的缺失值,笔者是完全依据国泰安原始数据进行的处理
回复

使用道具 举报

SophyZeng 发表于 2020-9-27 15:23:16 |显示全部楼层
楼主你好,请问:(更新)1990-2019年中国上市公司数据(最全!含数据处理)13种分类内容都是来源于国泰安吗?其中的上市公司研发数据是从哪一年到哪一年?
回复

使用道具 举报

SophyZeng 发表于 2020-9-27 15:07:08 |显示全部楼层
楼主你好,请问:(更新)1990-2019年中国上市公司数据(最全!含数据处理)13种分类内容都是来源于国泰安吗?其中的上市公司研发数据是从哪一年到哪一年?
回复

使用道具 举报

SophyZeng 发表于 2020-9-27 15:06:28 |显示全部楼层
楼主你好,请问:(更新)1990-2019年中国上市公司数据(最全!含数据处理)13种分类内容都是来源于国泰安吗?其中的上市公司研发数据是从哪一年到哪一年?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2020-9-29 21:18