1.识别年鉴。利用NLP识别《中国城市统计年鉴》,并转为面板数据
2.对比主流数据库、地方统计局,进一步完善城市数据
3.行政区划代码:统一使用2019年编码和地区名称
4.统一单位。对不同单位的情况,进行单位换算
5.人工验证。得到所有指标的面板数据,并人工抽样验证
6.平衡面板。将非平衡面板转为平衡面板数据
7.线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版
8.ARIMA填补(回归填补)。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版
最终,每个指标均有:保留原始版本、线性插值版、ARIMA填补版三个版本
城市年鉴面板无缺失版
(76 Bytes, 需要: RMB 29 元)
中国城市统计年鉴无缺失填充版.xlsx
(25.35 MB, 需要: RMB 29 元)


雷达卡






京公网安备 11010802022788号







