(1)背景。本人由于写毕业论文,于2018年接触海关数据库,刚开始本来只拿04 07 10 13等年份数据,因为数据量很大,论坛上有人出售,但价格很贵(那时根本不知道这种数据还能有假,碰到一个老师在卖(是单个dta文件的版本),花了点rmb买了,用了,结果后来被导师发现数据有很大问题,特别是2013年<实际是2012年开始>有数据跳级的现象)。后来又买了几个版本,终觉得这个数据库比其他数据更乱,为何?
(2)有问题的数据。
①目前人大论坛和网上的海关数据00-06年基本上问题不大,但是01年的8月份要留心,有重大问题,有数据的小伙伴可以自己看,比其他月份大很多,需要调整。
②07-11年单个dta的原始版本就不要用了,数据错误的。比如2007年单个dta则是总额一致,分国家就不对,可以看日本贸易额检验。
③07-15多个文件(2007年14file的)的版本(暂称A版本)问题小一点,但最好还是从两点去检验:1)检验总贸易额;2)检验对日本的贸易额。其中,A版本中07-11年总体来看没什么问题,但是贸易方式不能用,很多空缺的贸易方式不能直接用一般贸易方式代替,切记!2012-2015年这一原始版本不能说错误,但不能直接拿来使用,2012年一般是16file或者20file,但进出口总额4.7万亿,远远大于统计年鉴3.8万亿。从进出口总额和分国别出口额可以检验。<最乱的也就是12-15年> 。2013年 20file的dta版本数据有重大错误,整理后只有3.8万亿美元,而16file的准确<但也要处理过,可以处理到误差接受范围内>,所以20file的版本大家不要使用噢。14、15年原始的更乱,完全无法用!
④07-14年有B版本,数据准确,贸易方式也准确,不用调整直接可用。但有部分指标缺失。
④目前2016-2019年的数据只有一个版本,问题不大,就是有指标缺失。特别2017-2019年,没有企业名称,价值降低不少。
⑤07-16年我是没见到过有月度数据的版本,所以大家留心!(ps 也碰到过几个说自己有月度数据的,但发现都是假的。检验是否月度数据很简单,1计算每个月贸易额,跟海关总署数据对比,2看每个文件大小,如果每个月大小一样,那肯定是假数据<一般2月份文件最小>)
(3)检验海关数据准确性。海关数据库数据是否准确的验证方法:1),统计进口额 出口额;2)按国家来统计贸易额;这两个跟统计年鉴对比;3)选择一个hs编码,与UN TRADE进行对比。误差小于0.3%(1/300)认为准确。补充的两点:4)检验行业的贸易额,与统计年鉴对比;5)检验一般贸易和加工贸易额,与国民经济和社会发展统计公报对比。
(4)国研网的海关数据,分地区的不要用。分省份的数据的统计口径是境内目的地或发货地,并非企业所在地<按企业所在地分是我们通常概念上的地区贸易额>。二者的区别是:北京的企业所生产的货物,通过大连海关出口到美国。那么,按企业所在地分这笔贸易额记录到北京,按境内目的地或收发货地,这笔贸易额记录到辽宁。
所以二者的统计口径下的数据差异是很大的。
本帖只想揭露假数据,方便大家对海关贸易数据进行检验,公益贴~