| 所在主题: | |
| 文件名: 第四次全国人口普查表填写说明.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-3461800.html | |
| 附件大小: | |
|
数据名称:1990年人口普查1%抽样微观数据
范围:全国30省(市区);不含港澳台,重庆尚未升格为直辖市,数据并入四川 数据来源:IPUMS https://international.ipums.org/international/ 原始文件为30个省(市区)人口普查1%抽样数据(SPSS格式),具有各自地区的自代表性。 我进行了如下数据清洗(及合并)工作(为保护本人的知识产权,具体步骤放在完整版的readme文件中): 使用工具:SPSS 25 + STATA 16.1 1、统一变量 2、高低版本文件转换 存在问题的文件校正(感谢@璐宝宝提出的问题) 3、文件合并 4、添加数据标签及值标签(原始数据为英文,codebook中包含对应关系;但行业代码和职业代码是缺失的,本人查阅相关资料进行了填补,具体过程在readme文件中) 5、保存相应的.sav,转换为相应的.dta,并进行一些细节上的处理 关于缺失值:在文件中缺失值以“0”表示,可以识别的变量(没有0值定义)已进行缺失值处理;但存在部分变量本身具有0值定义,这一部分需要通过问卷跳转逻辑识别,因时间缘故没有进行。例如:“生育子女数”本身是15岁至64岁妇女填报,因此男性和15岁以下、64岁以上的妇女是不应该存在数据的,在SPSS数据文件中以0表示;但要注意的是15岁至64岁妇女如果从未生育,此时填报仍为“0”,要进行区分。这一部分请根据研究目的自行清洗。 原始数据在国外数据库是公开的,只需要申请。为方便大家我这里提供搬运版,仅收取辛苦费意思一下。完整版包含原始数据(不需要重复购买),清洗过程说明、中间文件和代码,最终全国层面的数据集(SPSS+STATA版本),样本观测值共11,835,947个,与官方保持一致,可直接使用。具体包含的变量及含义详见One Percent Sample of 1990 Census codebook.xls和第四次全国人口普查表填写说明.pdf。 按照原来的想法,主要是分享本人的数据清洗过程,原始数据仅提供搬运版。也就是说原始数据我得到的是什么样,分享出来的就是什么样子的,因此只有.sav格式的,对于部分文件可能存在的问题,本人概不负责。有需要售后或者数据清洗过程中探讨交流的朋友,请直接购买完整版,谢谢合作。 6.3更新: 1、因@璐宝宝提出样本量差异问题,经过反复检查,确认为原始数据中的Zhejiang.sav文件存在问题(并非或不仅仅是高低版本兼容问题)。根据官方相应的文本型数据文件(.DAT)进行转换,修正后样本容量一致。 前期没有注意到这个问题,深表歉意,因此将转换后的Zhejiang.sav及原始.DAT文件免费附赠在【原始数据】版中(完整版已经包含)。 2、增加了一些清洗的细节说明。 已经购买的朋友可以通过原链接免费获取新的版本。 相比网上已有资料,本次数据集具有以下优点: 1、来源、过程可查,上传了相应的MD5码,任何人都可以通过IPUMS网站申请原始数据,对比MD5码,不存在篡改的风险。 2、根据已有资料进行了数据标签和值标签的填补,可读性大大增强。 3、提供不同版本的数据文件,真正做到到手即用(除部分缺失值还需要自行清洗)。 完整版包含内容(2021/06/03更新): 原始数据包含内容(此外,附赠校验后的Zhejiang.sav及原始DAT文件): |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明