按年份索引
按国、省、市索引
综合索引
-->
返回列表
提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 道具中心
楼主: shetianlang
12527 31

说说2010年工业企业数据库的造假问题 [推广有奖]

21
1056015354 发表于 2019-10-27 00:28:45 来自手机 |只看作者 |坛友微信交流群
shetianlang 发表于 2019-10-26 09:19
根据他公布的样本数量和一些指标的情况,跟我手头上的一套假数据是一样的。我举报他有什么意义?我只是提 ...
楼主您好!我从学校服务器上得到的数据在2010年的样本量也是348536,我是天津某个985高校经济学院的。请问您确定10年的数据y是40多万行吗?

使用道具

22
1056015354 发表于 2019-10-27 00:30:41 来自手机 |只看作者 |坛友微信交流群
shetianlang 发表于 2019-10-26 09:19
根据他公布的样本数量和一些指标的情况,跟我手头上的一套假数据是一样的。我举报他有什么意义?我只是提 ...
我现在是官方渠道,就是学校自己的服务器上的数据。这个会有问题吗……

使用道具

23
shetianlang 发表于 2019-11-2 09:38:13 |只看作者 |坛友微信交流群
1056015354 发表于 2019-10-27 00:28
楼主您好!我从学校服务器上得到的数据在2010年的样本量也是348536,我是天津某个985高校经济学院的。请问 ...
2010年的数据基本上不能用,最好跳过不用。现在有三类数据:
一是贩子编造的数据;二是某些小公司卖给学校的数据,指标全但是跟年鉴数据对不上;三是某些大公司卖给学校的数据,跟年鉴数据对得上,但是指标不全。目前我还没有看到指标比较齐全、并且跟年鉴数据对得上的2010年工业企业微观数据

使用道具

24
水水123 在职认证  发表于 2019-11-5 21:16:05 |只看作者 |坛友微信交流群
清华园52 发表于 2019-8-27 17:25
348536北大版本,我这份,真的假的啊???搞不清楚了。
假的。442539才是北大版本
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
hua1971 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

25
水水123 在职认证  发表于 2019-11-5 21:18:55 |只看作者 |坛友微信交流群
1056015354 发表于 2019-10-27 00:28
楼主您好!我从学校服务器上得到的数据在2010年的样本量也是348536,我是天津某个985高校经济学院的。请问 ...
442539才是真的,而且里面指标很少

使用道具

26
水水123 在职认证  发表于 2019-11-5 21:23:36 |只看作者 |坛友微信交流群
工业企业数据(2010)1-500行.xls (517 KB)

上传一个sample,跟这个不一样的都是假数据。

使用道具

27
dwg 发表于 2020-2-1 15:03:01 |只看作者 |坛友微信交流群
《中国工业企业数据库的使用问题再探》说的很清楚,2010年数据也是有问题的。

使用道具

28
jiemin 在职认证  发表于 2020-3-24 16:28:37 |只看作者 |坛友微信交流群
北大的版本是目前最好的数据。2010年确实是40多万,但是财务指标只有三个。34万的应该是假数据。

使用道具

29
jiuxun 发表于 2020-4-10 05:26:56 |只看作者 |坛友微信交流群
对于2010年工企库验真,一个可能的思路是采用2007-2010年中国企业税收调查数据库的制造业部分企业与工企库对应年份进行匹配,然后观察每年的匹配率。工企库2007-2010的标准统计口径均为收入500万及以上(删除少量不到这一数额的数据以统一口径),而税收调查数据统计的企业没有规模截断,涵盖 抽样,非抽样,重点(部分与抽样重叠)等3类企业,若也按收入500万及以上的条件处理,从大样本分布的角度上看,两者的匹配结果应当随年份有趋势性变化,一旦2010年的匹配量断崖式下降或突然增加,那么有理由质疑它的真实性。进一步的,由于税收调查数据也提供了丰富的财务指标,可以先对2007-2009年两库匹配上的企业数据随机抽样,观察这些样本同一个指标的数据是否相等或相近,做到交叉验证,然后对2010年采用同样方式进行检验。此外,经对比34万与42万版本2010年工企的ln(营业收入)发现,34万版有明显左截断,与07-09年数据相似,而42万版虽然也呈现出截断的正态分布,但有点奇怪。在附件中贴出了锐思2010年工企42万、工企34万和税调制造业部分31万的ln(营业收入)直方图,可以作为比较。

税收调查2010营业收入.png (33.12 KB)

税收调查制造业部分2010 ln(营业收入)

税收调查制造业部分2010 ln(营业收入)

34万版工企库2010营业收入.png (27.78 KB)

34万版工企库2010 ln(营业收入)

34万版工企库2010 ln(营业收入)

锐思42万工企库2010营业收入.png (25.14 KB)

锐思42万工企库2010 ln(营业收入)

锐思42万工企库2010 ln(营业收入)

使用道具

30
来年我还在 学生认证  发表于 2020-9-1 22:03:36 |只看作者 |坛友微信交流群
水水123 发表于 2019-11-5 21:18
442539才是真的,而且里面指标很少
这个里面不是很多资产总计或固定资产小于0的吗?删除后好像就是34800多

使用道具

返回列表
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 05:48