楼主: Raymond.K
7807 19

[经管数据集] 1990年人口普查1%抽样微观数据(SPSS+STATA) [推广有奖]

  • 2关注
  • 8粉丝

实习版主

经济学探索者

已卖:1148份资源

教授

93%

还不是VIP/贵宾

-

威望
1
论坛币
54308 个
通用积分
1682.6346
学术水平
44 点
热心指数
49 点
信用等级
38 点
经验
13398 点
帖子
340
精华
1
在线时间
2537 小时
注册时间
2016-12-20
最后登录
2026-1-22

20周年荣誉勋章

楼主
Raymond.K 学生认证  发表于 2021-5-21 19:09:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据名称:1990年人口普查1%抽样微观数据
范围:全国30省(市区);不含港澳台,重庆尚未升格为直辖市,数据并入四川
数据来源:IPUMS https://international.ipums.org/international/

原始文件为30个省(市区)人口普查1%抽样数据(SPSS格式),具有各自地区的自代表性。
我进行了如下数据清洗(及合并)工作(为保护本人的知识产权,具体步骤放在完整版的readme文件中):
使用工具:SPSS 25 + STATA 16.1
1、统一变量
2、高低版本文件转换 存在问题的文件校正(感谢@璐宝宝提出的问题
3、文件合并
4、添加数据标签及值标签(原始数据为英文,codebook中包含对应关系;但行业代码和职业代码是缺失的,本人查阅相关资料进行了填补,具体过程在readme文件中)
5、保存相应的.sav,转换为相应的.dta,并进行一些细节上的处理
关于缺失值:在文件中缺失值以“0”表示,可以识别的变量(没有0值定义)已进行缺失值处理;但存在部分变量本身具有0值定义,这一部分需要通过问卷跳转逻辑识别,因时间缘故没有进行。例如:“生育子女数”本身是15岁至64岁妇女填报,因此男性和15岁以下、64岁以上的妇女是不应该存在数据的,在SPSS数据文件中以0表示;但要注意的是15岁至64岁妇女如果从未生育,此时填报仍为“0”,要进行区分。这一部分请根据研究目的自行清洗。

原始数据在国外数据库是公开的,只需要申请。为方便大家我这里提供搬运版,仅收取辛苦费意思一下。完整版包含原始数据(不需要重复购买),清洗过程说明、中间文件和代码,最终全国层面的数据集(SPSS+STATA版本),样本观测值共11,835,947个,与官方保持一致,可直接使用。具体包含的变量及含义详见One Percent Sample of 1990 Census codebook.xls和第四次全国人口普查表填写说明.pdf。
按照原来的想法,主要是分享本人的数据清洗过程,原始数据仅提供搬运版。也就是说原始数据我得到的是什么样,分享出来的就是什么样子的,因此只有.sav格式的,对于部分文件可能存在的问题,本人概不负责。有需要售后或者数据清洗过程中探讨交流的朋友,请直接购买完整版,谢谢合作。

6.3更新:
1、因@璐宝宝提出样本量差异问题,经过反复检查,确认为原始数据中的Zhejiang.sav文件存在问题(并非或不仅仅是高低版本兼容问题)。根据官方相应的文本型数据文件(.DAT)进行转换,修正后样本容量一致。
前期没有注意到这个问题,深表歉意,因此将转换后的Zhejiang.sav及原始.DAT文件免费附赠在【原始数据】版中(完整版已经包含)。
2、增加了一些清洗的细节说明。

已经购买的朋友可以通过原链接免费获取新的版本。

IPUMS提供的样本容量

最终样本容量

相比网上已有资料,本次数据集具有以下优点:
1、来源、过程可查,上传了相应的MD5码,任何人都可以通过IPUMS网站申请原始数据,对比MD5码,不存在篡改的风险。
2、根据已有资料进行了数据标签和值标签的填补,可读性大大增强。
3、提供不同版本的数据文件,真正做到到手即用(除部分缺失值还需要自行清洗)。

完整版包含内容(2021/06/03更新):
2021/06/03更新

原始数据包含内容(此外,附赠校验后的Zhejiang.sav及原始DAT文件):
原始数据




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata 人口普查 tata SPSS 微观数据

完整版1.png (23.17 KB)

失效

失效

第四次全国人口普查表填写说明.pdf
下载链接: https://bbs.pinggu.org/a-3461800.html

1.42 MB

One Percent Sample of 1990 Census codebook.xls

51 KB

1990年人口普查1%抽样微观数据完整版(SPSS+STATA)

76 Bytes

需要: RMB 108 元  [购买]

1990年人口普查1%抽样微观数据(原始数据)

76 Bytes

需要: RMB 8 元  [购买]

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
仙人东方生8 + 1 + 1 + 1 奖励积极上传好的资料

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

我是我命运的主人,我是我灵魂的船长。

沙发
Raymond.K(未真实交易用户) 学生认证  发表于 2021-5-21 22:07:49
原始数据版也包含了转换后的Zhejiang.sav,确保高版本SPSS可以打开。但不含清洗过程步骤说明及相关文献资料,需要的朋友可以直接购买完整版,完整版含原始数据。

此外,可交换后续年份普查抽样和1%抽样,需要的年份2010、2015(以及更后面的),有这些资料的朋友可以私信联系。

补充内容 (2022-9-15 11:19):
关于数据交换:人口普查(小普查)2015年之后的年份(可适当补偿以满足新数据的价值);需农业农村部农村固定观察点数据;其他罕见的家庭微观数据

藤椅
璐宝宝(真实交易用户) 发表于 2021-6-1 15:34:25
买了8块钱的版本,stata 16可以直接导入sav文件,然后发现你的文件没有一个能导入的。。。要买数据的注意了

板凳
Raymond.K(未真实交易用户) 学生认证  发表于 2021-6-1 19:23:34
璐宝宝 发表于 2021-6-1 15:34
买了8块钱的版本,stata 16可以直接导入sav文件,然后发现你的文件没有一个能导入的。。。要买数据的注意了 ...
sav是spss的格式,我测试了一下stata 16.1确实无法直接导入,但spss 25可以正常打开。这个应该是stata导入外部数据不支持低版本spss格式的缘故。
需要说明的是【原始数据】版本只是方便大家而进行的搬运(免除申请数据而等待的时间),本人未对数据进行任何修改和调整(除了zhejiang.sav连spss 25也无法正常读取,由此可见原始数据就是通过低版本spss录入的)。因此无法保证第三方软件和高版本的可读性。
如果有需要stata格式的朋友可以直接购买完整版。感谢支持!
屏幕截图 2021-06-01 192146.png

我是我命运的主人,我是我灵魂的船长。

报纸
Raymond.K(未真实交易用户) 学生认证  发表于 2021-6-1 19:36:45
有任何问题可以随时提出,欢迎多多讨论、批评指正

地板
璐宝宝(真实交易用户) 发表于 2021-6-2 20:21:24
我购买了数据,但是浙江省的数据缺失严重。在IPUM中浙江省有观测值433,487,楼主的数据中浙江省共有166,123。在IPUM中总观测值为11,835,947,楼主的数据观测值为11,568,585。两个数据的差异基本来源于浙江省数据的缺失,希望楼主检查一下浙江省的情况,把数据补充完整。
已有 1 人评分论坛币 收起 理由
Raymond.K + 5 帮助找出数据集的错误

总评分: 论坛币 + 5   查看全部评分

7
Raymond.K(未真实交易用户) 学生认证  发表于 2021-6-3 14:01:18
璐宝宝 发表于 2021-6-2 20:21
我购买了数据,但是浙江省的数据缺失严重。在IPUM中浙江省有观测值433,487,楼主的数据中浙江省共有166,12 ...
您反馈的问题确实是的,应该是浙江的原始数据文件存在问题。我从文本型原始数据文件重新转换sav再进行清洗合并,最终样本量与官方一致。数据已经更新,请从原址重新下载。再次感谢您的支持

8
风吹稻谷(真实交易用户) 发表于 2021-8-27 15:58:57
楼主你好,购买了你的数据,怎样联系你?

9
Raymond.K(未真实交易用户) 学生认证  发表于 2021-8-27 17:06:56
风吹稻谷 发表于 2021-8-27 15:58
楼主你好,购买了你的数据,怎样联系你?
您好,可私信联系,我看到了会尽快回复的,感谢支持!

10
aCw1537438220(未真实交易用户) 学生认证  发表于 2021-10-4 18:33:56
请问楼主找到2010年或2015年的了吗 有偿求

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 22:11