收集完的数据首先要做的是数据的清理,不完成数据的清理直接做分析是会出现问题的。
1.清理无效数据
a) 根据题目设置的测谎题或者填空题来判断是否是乱答;b) 根据作答时间判断是否乱答;结合各个条件判断是否无效,并清除无效数据。
2.缺失值的处理
如果存在缺失值,可以用平均值、趋势值等方式代替。
3.逻辑判断
查看是否有逻辑不顺的题目,比如年龄-工作年限>18,等,需要符合实际。
4.填空题的清理
数值型的填空题需要清理非数值的部分,文本型的填空题需要清理乱填乱答的部分。
有新的再补充···