更新时间:2021年5月19日
数据说明:行业分类是研究中经常用到的变量,如股票市场交易子库、治理结构子库、上市公司基本信息子库、内部控制子库、上市公司贷款子库、诉讼仲裁子库等。同时,有两个版本的行业分类,分别是证监会2001年行业分类标准和2012年行业分类标准。
处理过程详解:
(1)首先,需要将同一标准下的行业分类尽可能地补全(各个子库的缺失值程度是不一样的);
(2)然后,将行业大类、行业门类单独提取出来,便于在不同纬度进行聚类分析;
(3)再次,目前常用的行业分类是除制造业按照行业门类划分以外,其他行业按照行业大类划分(参见黄梅、夏新平(2009)-《南开管理评论》)——这是目前研究中使用最多的;
(4)最后,还要分别生成行业分类对应的数值型和字符串变量。
以上步骤笔者已经处理好了,大家可以直接使用。变量开头为Sic的变量为最终处理好的变量(根据证监会2012年行业分类处理),当然,各个子库的原始变量(在变量标签中添加了所属的子库)也在附件中,便于大家比较查阅。附件包含 dta 和 excel 两个版本。
包含变量说明:
序号 | 变量 | 变量说明 |
1 | id | 证券代码 |
2 | id_org | 证券代码-字符串 |
3 | year | 年份 |
4 | Stknme | 证券简称(补全) |
5 | Sicda_str | 证监会2012行业大类分类码-每年更新 |
6 | Sicda | 证监会2012行业大类分类码-每年更新 |
7 | Sicda_chg | 行业大类代码是否变更 |
8 | Sicmen_str | 证监会2012行业门类分类码-每年更新 |
9 | Sicmen | 证监会2012行业门类分类码-每年更新 |
10 | Sicmen_chg | 行业门类代码是否变更 |
11 | Sic2_str | 行业分类: A B C1 C2 D E |
12 | Sic2 | 行业分类: A B C1 C2 D E |
13 | Indcd | 行业代码A-股票市场交易子库 |
14 | Indnme | 行业名称A-股票市场交易子库 |
15 | Nindcd | 行业代码B-股票市场交易子库 |
16 | Nindnme | 行业名称B-股票市场交易子库 |
17 | Nnindcd | 行业代码C-股票市场交易子库 |
18 | Nnindnme | 行业名称C-股票市场交易子库 |
19 | Indcd51 | 行业代码A-治理结构子库 |
20 | Indnme51 | 行业名称A-治理结构子库 |
21 | Nindcd51 | 行业代码B-治理结构子库 |
22 | Nindnme51 | 行业名称B-治理结构子库 |
23 | Nnindcd51 | 行业代码C-治理结构子库 |
24 | Nnindnme51 | 行业名称C-治理结构子库 |
25 | IndustryCode1 | 行业代码-上市公司基本信息子库 |
26 | IndustryName1 | 行业名称-上市公司基本信息子库 |
27 | IndustryCode91 | 行业代码-内部控制子库 |
28 | IndustryName91 | 行业名称-内部控制子库 |
29 | IndustryCode92 | 行业代码-内部控制子库 |
30 | IndustryName92 | 行业名称-内部控制子库 |
31 | INDUSTRYCODE10 | 行业代码-上市公司贷款子库 |
32 | IndustryName10 | 行业名称-上市公司贷款子库 |
33 | IndustryCode12 | 行业代码-诉讼仲裁子库 |
34 | IndustryName12 | 行业名称-诉讼仲裁子库 |
各年度观测值数量:
年份 | 观测值 |
1990 | 12 |
1991 | 18 |
1992 | 78 |
1993 | 236 |
1994 | 362 |
1995 | 397 |
1996 | 618 |
1997 | 839 |
1998 | 947 |
1999 | 1,055 |
2000 | 1,203 |
2001 | 1,264 |
2002 | 1,328 |
2003 | 1,388 |
2004 | 1,482 |
2005 | 1,484 |
2006 | 1,561 |
2007 | 1,674 |
2008 | 1,719 |
2009 | 1,876 |
2010 | 2,227 |
2011 | 2,459 |
2012 | 2,587 |
2013 | 2,634 |
2014 | 2,848 |
2015 | 3,006 |
2016 | 3,339 |
2017 | 3,629 |
2018 | 3,722 |
2019 | 3,964 |
2020 | 4,384 |
核心变量缺失值情况:
Variable | Missing | Total | Percent Missing |
id | 0 | 54,340 | 0 |
id_org | 0 | 54,340 | 0 |
year | 0 | 54,340 | 0 |
Stknme | 6 | 54,340 | 0.01 |
Sicda_str | 3,082 | 54,340 | 5.67 |
Sicda | 3,082 | 54,340 | 5.67 |
Sicda_chg | 0 | 54,340 | 0 |
Sicmen_str | 3,082 | 54,340 | 5.67 |
Sicmen | 3,082 | 54,340 | 5.67 |
Sicmen_chg | 0 | 54,340 | 0 |
Sic2_str | 3,082 | 54,340 | 5.67 |
Sic2 | 3,082 | 54,340 | 5.67 |
数据截图:
