Part1前言
在当前这个信息泛滥的时代,及时、可靠和尽量精准的数据对我们获取知识、理解现实和解决问题变得越来越关键。这催生了一批面对政商学、产学研各个领域专业数据服务公司。企研数据专注社科领域的专业数据库研发和建设服务,是国内较早将全量工商注册企业数据应用于科研领域的专业公司。团队对全量工商注册数据的应用可以追溯到创始人在北京大学从事博士后研究工作期间所参与的朗润-龙信创新创业指数项目。公司于2018年正式成立之后,我们尝试用这份理论上包含中国所有企业基本信息的数据库,深度探索了其在规模以上工业企业数据库、海关数据库、专利数据库等的纵向和横向匹配方面的应用价值,形成的研究报告免费分享在公众号上,读者可以在企研·社科大数据平台下载工作论文形式的pdf文件(网址为:r.qiyandata.com,以下是截图)。
图源“企研·社科大数据平台”,网址:r.qiyandata.com
公司正式成立之后,始终坚持边干边学,努力加深对中国全量工商注册企业数据库的研究,不仅在此基础上探索了其在三农、绿色发展和数字经济等领域的科研应用,还持续为有关部委、大型国企提供相关数据服务。我们深知这份数据的复杂程度,以及数据安全的重要性,5年来团队始终保持清醒的头脑,坚持从应用层面去开发和销售相关数据产品,而拒绝落地售卖全量的基础数据。尽管我们知道,在金融领域,一份全量工商注册数据库+更新服务,动辄大几十万,甚至数百万。
近期,销售部门得到一些客户反馈,认为通过云桌面账号的方式使用这个数据库并不合理,因为“市面上”已经有不少数据服务商公开售卖这份数据,并且价格极为便宜。我们深知,只有通过对数据有细致的前期处理和谨慎分析,才能确保其准确性和完整性,从而得出可靠的数据分析结果。为了一探究竟,企研数据·研发部抱着“学习使人进步”的态度,对买到的其中一份数据进行了质量分析,正如我们之前曾经分析互联网上流传的2014、2015年规模以上工业企业数据库那样(传送门:2014年工业企业数据库质量调查报告、2015年工业企业数据库质量调查报告),形成了这份质量考察报告。
具体来说,本文试图利用企研数据掌握并运营多年的全量工商企业注册数据库(我们接下来称之为“企研版”)以及一些国家市场监管部门公开发布的统计数据,对这份原始出处不明的中国全量工商企业数据集(我们接下来称呼其为“A版”)的质量进行考察。主要将从数据量和数据质量两个方面展开,以期帮助读者更好地选择和使用数据。
我们通过A版数据的“企业类型”指标发现,该数据集不仅包含“企业”的登记注册信息,还包含“个体工商户”的注册信息。为分别对比不同类别经营主体(企业和个体工商户)的数量,我们尝试对A版数据的经营主体类型进行划分。然而遗憾的是,该数据集的“企业类型”指标缺失率高达53.15%,导致无法简单根据该指标对经营主体类型进行划分。
随后,我们尝试通过“统一社会信用代码”指标,来辅助识别“企业类型”指标缺失记录的经营主体类型。然而统计发现,A版数据约有7655万条记录(占比约为51%)的“统一社会信用代码”和“企业类型”指标均为缺失状态。总之,根据当前A版数据集的已有的指标和指标缺失情况,我们暂时无法对企业和个体工商户两类经营主体进行区分。
小知识:我们可通过“统一社会信用代码”前两位为“92”,对个体工商户经营主体进行识别(关于统一社会信用代码更为详细的说明可见往期推文 数据清理丨如何用机构代码唯一识别企业(科普篇))。
为了确保对比口径的一致,我们基于企研版数据集分别统计了“企业”、“个体工商户”、“企业+个体工商户”三个口径的数据量,并与A版数据集进行对比。表1是两个数据集1949-2020年新注册主体数量的统计情况。
表1 不同数据集1949-2020年新注册主体数量统计情况对比
图1 不同来源数据集1949-2020年新注册主体数量变化趋势对比
如表1和图1所示,除了1970年这个疑似异常值,企研版数据集统计得到的历年新增市场主体数量要明显高于A版数据集的统计值。根据国家统计局2021年发布的《中华人民共和国2020年国民经济和社会发展统计公报》[1]数据显示,2020年全年新登记市场主体2502万户。A版数据集显示2020年新增市场主体约885万户,数据量明显低于官方统计数据。企研版数据集统计得到的2020年新增市场主体约2587万家,数据量更接近国家统计局发布的统计值。
Part3 从数据质量上看,A版数据集缺失率高,且存在大量重复数据,质量偏低。
接着,我们对两个数据集中的关键数据指标的数据量进行了统计,并计算了各指标的缺失情况,具体如表2所示。
表2 不同数据集关键指标数据缺失情况的对比
如表2所示,A版数据集“统一社会信用代码”、“注册地址”、“经营范围”、“核准日期”、“企业类型”、“登记机关”、“行业”这7个关键数据指标的缺失率均高于50%。缺失率最高的指标是“统一社会信用代码”,缺失率高达82.08%。“统一社会信用代码”指标在跨数据库横向匹配中应用广泛,是最关键的指标,若该指标缺失将影响后续工商企业数据与海关数据、工企数据等其他数据库的横向匹配(参见前言中提及到的我们的深度匹配报告)。
此外,A版数据集存在约30万重复数据(如图2所示),也需要进一步清洗。
图2 A版数据集数据重复问题
Part4 结论
本文通过数据量和数据质量两个层面,对外采的廉价但数据来源不明的全量工商企业注册数据库(我们称之为A版),与企研数据掌握的全量工商企业注册数据库数据集进行了对比分析。结果发现,无论是从数据量还是数据质量看,企研版数据集都要明显优于A版。数据不仅是我们理解和分析经济问题的基础,数据质量更是获得可靠研究结论的关键,只有高质量的数据,才能引导和保证我们得出准确的结论。
读者们,数据的完整性和准确性对于我们的研究具有至关重要的影响,请谨慎使用质量欠佳的数据集。更多关于全量工商企业注册数据库的情况介绍,请查看原文。