【二楼 沙发贴】
缺失值处理
1,删除或报告缺失值(一般位于处理方法的options的对话框中)(缺失值较少时采用)
包括两种1,exclude cases analysis by analysis(一次选中多个变量进行同类分析时,分析中用到的变量有缺失值,则将相应的记录去除。把缺失的变量删除,默认的处理方法)2,excludecaseslistwise(一次选中多个变量进行同类分析,只要变量中将会被分析的变量有缺失值则将所有分析中将该记录)
2,missingvalue analysis过程
主要功能有以下三种:
1,缺失值的描述和快速判断(用户可以看到缺失值的位置,比例,是否在配对变量中出现、数据是否随机缺失等等。主要由missingvalue analysis中的patterns和descriptives实现)
2,获得更精确的统计量(获得估计含缺失值数据的均数、标准差、协方差矩阵、相关矩阵。方法有列表状态删除、配对状态删除、期望最大化和回归)
3,用估计值替代缺失值(em和回归算法)用户可以从确实数据的情况中推算出缺失数据的估计值从而能有效的使用所有数据进行分析,提高统计结果的可信度。
使用条件
Listwise deletion列表状态删除在进行统计量的计算时,把含有缺失值的记录删除,这种方法可以用于计算全体无缺失值数据的均数、协方差和标准差
Pairwise deletion配对状态删除适用于两两配对的变量,如果某条记录在其中一个配对变量中的数据缺失,则在进行这对配对变量的统计量计算时把含有缺失值的数据删除,在计算其他变量的统计量时不受影响。这种方法可以用于计算配对变量在无缺失值的情况下其频数、均数、标准差、协方差、协方差矩阵和相关矩阵。
EM 期望最大化当数据缺失较多,变量间可能呈曲线联系时使用这种方法更为适宜。EM的计算原理比较复杂,不多做解释。
Regression回归使用所有被选入的连续变量为自变量,存在缺失值的变量为因变量建立回归方程,在得到回归方程后使用此方程对因变量相应的缺失值进行填充具体的填充数值为回归预测值加上任意一个回归残差使它更接近实际情况。当数据缺失比较少,缺失机制比较明确时可以选用这种方法。
------------------------------------------------
【四楼 板凳贴】
我现在知道了:缺失值处理
一、删除或报告缺失值(一般位于处理方法的options的对话框中)(缺失值较少时采用)
包括两种1,exclude cases analysisby analysis(一次选中多个变量进行同类分析时,分析中用到的变量有缺失值,则将相应的记录去除。把缺失的变量删除,默认的处理方法)2,excludecases listwise(一次选中多个变量进行同类分析,只要变量中将会被分析的变量有缺失值则将所有分析中将该记录)
二、missing value analysis过程
1,缺失值的描述和快速判断(用户可以看到缺失值的位置,比例,是否在配对变量中出现、数据是否随机缺失等等。主要由missingvalue analysis中的patterns和descriptives实现)
2,获得更精确的统计量(获得估计含缺失值数据的均数、标准差、协方差矩阵、相关矩阵。方法有列表状态删除、配对状态删除、期望最大化和回归)
3,用估计值替代缺失值(em和回归算法)用户可以从确实数据的情况中推算出缺失数据的估计值从而能有效的使用所有数据进行分析,提高统计结果的可信度。
使用条件
【Listwise deletion列表状态删除法】在进行统计量的计算时,把含有缺失值的记录删除,这种方法可以用于计算全体无缺失值数据的均数、协方差和标准差
【Pairwise deletion 配对状态删除法】适用于两两配对的变量,如果某条记录在其中一个配对变量中的数据缺失,则在进行这对配对变量的统计量计算时把含有缺失值的数据删除,在计算其他变量的统计量时不受影响。这种方法可以用于计算配对变量在无缺失值的情况下其频数、均数、标准差、协方差、协方差矩阵和相关矩阵。
EM 期望最大化 当数据缺失较多,变量间可能呈曲线联系时使用这种方法更为适宜。EM的计算原理比较复杂,不多做解释。
Regression回归使用所有被选入的连续变量为自变量,存在缺失值的变量为因变量建立回归方程,在得到回归方程后使用此方程对因变量相应的缺失值进行填充具体的填充数值为回归预测值加上任意一个回归残差使它更接近实际情况。当数据缺失比较少,缺失机制比较明确时可以选用这种方法。