判别分析要注意的问题
训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂.
要选择好可能由于判别的预测变量.这是最重要的一步.当然,在应用中,选择的余地不见得有多大.
要注意数据是否有不寻常的点或者模式存在.还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证.
判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的.使用较少的变量意味着节省资源和易于对结果进行解释.
在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在SPSS选项中选择Wilks' Lambda,Rao's V,The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出),以确定是否分类结果是仅仅由于随机因素.
此外成员的权数(SPSS用prior probability,即"先验概率",和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权.
对于多个判别函数,要弄清各自的重要性.
注意训练样本的正确和错误分类率.研究被误分类的观测值,看是否可以找出原因.
|