第一个问题,对于自变量的处理,比如缺失值等等。主要根据实际情况来,缺失值如果是因为数据采集过程的随机缺失,就可以用插值法填补。但如果是确实没有数据,那么要么将缺失值当成一个分类,要么就当成0,确实没有这个数据么。然后我一般是数据缺失超过50%就不用了。
第二个问题,对于量纲大,偏度,峰度大的变量,进行Ln转化。对于其他的变量,也要考察是不是极端值特别极端,小于一分位数的值,用一分位数减去三倍四分卫间距代替。
第三个问题,离散变量是可以当作逻辑回归的自变量的。当然最好按照目标连续化。
第四个问题,不需要。