|
SPSS在因子分析中的应用
因子分析的基本原理
1、方法概述
人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识。为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。
2、基本原理
通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。
R型因子分析数学模型是:
3、基本步骤
由于实际中数据背景、特点均不相同,故采用因子分析步骤上可能略有差异,但是一个较完整的因子分析主要包括如下几个过程:
(1) 确认待分析的原变量是否适合作因子分析因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。
(2)构造因子变量将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。
(3)利用旋转方法使因子变量更具有可解释性将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。
(4)计算因子变量得分实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。
根据上述步骤,可以得到进行因子分析的详细计算过程如下。
①将原始数据标准化,以消除变量间在数量级和量纲上的不同。
②求标准化数据的相关矩阵。
③求相关矩阵的特征值和特征向量。
④计算方差贡献率与累积方差贡献率。
⑤确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。
⑥因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
⑦用原指标的线性组合来求各因子得分。
⑧综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
因子分析的SPSS操作详解
Step01:打开对话框
选择菜单栏中的【Analyze(分析)】→【Data Reduction(降维)】→【Factor(因子)】命令,弹出【Factor Analysis(因子分析)】对话框,这是因子分析的主操作窗口。
Step02:选择因子分析变量
在【Factor Analysis(因子分析)】对话框左侧的候选变量列表框中选择进行因子分析的变量,将其添加至【Variables(变量)】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【Selection Variable(选择变量)】列表框中,并单击【Value】按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。
Step03:选择描述性统计量
单击【Descriptives】按钮,在弹出的对话框中可以选择输出描述性统计量及相关矩阵等内容。
具体选项含义如下:
①【Statistics(统计量)】选项组
●Univariatedescriptives:单变量描述统计量,即输出参与分析的各原始变量的均值、标推差等。
●Initial solution:初始分析结果,系统默认项。输出各个分析变量的初始共同度、特征值以及解释方差的百分比等。
②【Correlation Matrix(相关矩阵)】选项组
●Coefficients:原始分析变量间的相关系数矩阵。
●Significance levels:显著性水平。输出每个相关系数相对于相关系数为0的单尾假设检验的概率水平。
●Determinant:相关系数矩阵的行列式。
●Inverse:相关系数矩阵的逆矩阵。
●Reproduced:再生相关矩阵。输出因子分析后的相关矩阵以及残差阵。
●Anti-image:象相关阵。包括偏相关系数的负数以及偏协方差的负数。在一个好的因子模型中,除对角线上的系数较大外,远离对角线的元素应该比较小。
KMO and Bartlett's test of sphericity:KMO 和Bartlett 检验。前者输出抽样充足度的Kaisex-Meyer-Olkin测度,用于检验变量间的偏相关是否很小。后者Bartlett 球度方法检验相关系数阵是否是单位阵。如果是单位阵,则表明因子模型不合适采用因子模型。
Step04:选择因子提取方法
单击【Extract(抽取)】按钮,在弹出的对话框中可以选择提取因子的方法及相关选项。
①在【Method(方法)】框下拉列表框中可以选择因子提取方法。
●Principal components:主成份分析法。该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减。
●Unweightedleast square :不加权最小二乘法。
●Generalized least squares :加权最小二乘法。
●Maximum likelihood :极大似然法。
●Principal axis factoring :主轴因子提取法。
●Alphafactoring:α因子提取法。
●Image factoring:映象因子提取法。
②【Analyze(分析)】选项组
●Correlation matrix:相关系数矩阵,系统默认项。
●Covariance matrix:协方差矩阵。
③【Display(输出)】选项组:输出与因子提取有关的选项。
●Unrotatedfactor solution:输出未经旋转的因子提取结果。此项为系统默认的输出方式。
●Screeplot:输出因子的碎石图。它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。
④【Extract(抽取)】选项组:输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。
●Eigenvaluesover:指定提取的因子的特征值数目。在此项后面的矩形框中给出输入数值(系统默认值为1),即要求提取那些特征值大于1 的因子。
●Number of f actors:指定提取公因子的数目。用鼠标单击选择此项后,将指定其数目。
⑤Maximum iterations for Convergence:在对应的文本框中指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。
Step05:选择因子旋转方法
单击【Rotation】按钮,在弹出的对话框可以选择因子旋转方法及相关选项。
①【Method(方法)】选项组选择旋转方法。
●None:不进行旋转,此为系统默认的选择项。
●Varimax:方差最大旋转法。这是一种正交旋转方法。它使每个因子具有最高载荷的变量数最小,因此可以简化对因子的解释。
●Direct Oblimin:直接斜交旋转法。指定此项可以在下面的“Delta”矩形框中键入δ值,该值应该在0~1 之间。系统默认的δ值为0。
●Quartma:四次方最大正变旋转法。该旋转方法使每个变量中需要解释的因子数最少。
●Equamax:平均正交旋转法。
●Promax:斜交旋转方法。允许因子彼此相关。它比直接斜交旋转更快,因此适用于大数据集的因子分析。指定此项可以在下面的“Kappa”矩形框中键入“к”值,默认为4(此值最适合于分析)。
②【Display(输出)】选项组:选择有关输出显示。
●Rotated solution:旋转解。在Method栏中指定旋转方法才能选择此项。
●Lodingplot(s):因子载荷散点图。指定此项将给出以前两因子为坐标轴的各变量的载荷散点图。
③Maximum iterations for Convergence:可以指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的文本框中输入指定值。
Step06:选择因子得分
单击【Scores】按钮,在弹出的对话框中可以选择因子得分方法及相关选项。具体选项含义如下。
Step07:其他选项输出
单击【Options】按钮,在弹出的对话框中可以选择一些附加输出项。具体选项含义如下。
①【MissingValues(缺失值)】选项组:选择处理缺失值方法。
●Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。
●Exclude cases pairwise:成对剔除带有缺失值的观测量。
●Replace with mean:用该变量的均值代替工作变量的所有缺失值。
②【Coefficient Display Format(系数显示格式)】选项组:选择载荷系数的显示格式。
●Sorted by size:将载荷系数按其大小排列构成矩阵,使在同一因子上具有较高载荷的变量排在一起。便于得出结论。
●Suppress absolute values less than:不显示那些绝对值小于指定值的载荷系数。选择此项后还需要在该项的参数框中键入0~1之间的数作为临界值。系统默认的临界值为0.10。
Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果
|