做研究哪个环节最重要?这个问题见仁见智。我的体会是数据准备及处理环节极为重要。好比种庄稼,数据可视为是土壤+种子。苦心经营于模型,无可厚非。然而,数据端如果出了问题,则研究就成了无源之水、无本之末。近一段时间,研究城市问题,发现现有年鉴还存在很大不足,个别年鉴登记错误、数据在指标之间甚至相邻城市之间颠倒的现象并不鲜见。所以,数据找齐后,务必要清洗。眼观是最直观的办法,时间序列数据,如果存在明显的落点或者跃点都要引起足够重视。既要回归原年鉴(最好是PDF版),同时也要查阅第二甚至第三来源。当然还有一些统计和计量方法可以帮助识别异常值(离群值)。总之,花费在数据处理上的时间一分都不能省。



雷达卡





京公网安备 11010802022788号







