|
12 ■2005 ■市场研究
在社会经济统计综合评价中主成分分析和因子分析
是两个常被使用的统计分析方法。现在SPSS、SAS 等统计
软件使用越来越普遍, 但SPSS 并未像SAS 一样, 将主成
分分析与因子分析作为两个独立的方法并列处理[注: 主
成分分析与因子分析二者是又有着区别与联系, 最主要
的不同在于它们的数学模型的构建上, 具体区别请见参
考文献[2], 而是根据二者之间的关系有机地将主成分分
析嵌入到因子分析之中, 这样虽然简化了分析程序, 却为
主成分分析的计算带来不便。且国内许多SPSS 教程并没
有详细讲解如何应用SPSS 进行主成分分析, 那到底如何
使用SPSS 进行主成分分析呢? 为使读者能够正确使用
SPSS 软件进行主成分分析, 本文将通过一个实例来详细
介绍如何用SPSS 进行主成分分析。接下来先简单介绍主
成分分析原理与模型, 以便读者对主成分分析有个大致
的了解。
( 一) 主成分分析原理
主成分分析是设法将原来众多具有一定相关性( 比
如P 个指标) , 重新组合成一组新的互相无关的综合指标
来代替原来的指标。通常数学上的处理就是将原来P 个
指标作线性组合, 作为新的综合指标。最经典的做法就是
用F1( 选取的第一个线性组合, 即第一个综合指标) 的方
差来表达, 即Var(F1)越大, 表示F1 包含的信息越多。因此
在所有的线性组合中选取的F1 应该是方差最大的, 故称
F1 为第一主成分。如果第一主成分不足以代表原来P 个
指标的信息, 再考虑选取F2 即选第二个线性组合, 为了有
效地反映原来信息, F1 已有的信息就不需要再出现在F2
中, 用数学语言表达就是要求Cov(F1, F2)=0, 则称F2 为第
二主成分, 依此类推可以构造出第三、第四, ⋯⋯, 第P 个
主成分。
( 二) 主成分分析数学模型
F1=a11ZX1+a21ZX2+⋯⋯+ap1ZXp
F2=a12ZX1+a22ZX2⋯⋯+ap2ZXp
⋯⋯
Fp=a1mZX1+a2mZX2+⋯⋯+apmZXp
其中a1i, a2i, ⋯⋯,api(i=1,⋯⋯,m)为X 的协方差阵Σ
的特征值多对应的特征向量, ZX1, ZX2, ⋯⋯, ZXp 是原始
变量经过标准化处理的值, 因为在实际应用中, 往往存在
指标的量纲不同, 所以在计算之前须先消除量纲的影响,
而将原始数据标准化, 本文所采用的数据就存在量纲影
响[注: 本文指的数据标准化是指Z 标准化]。
A=(aij)p×m=(a1,a2, ⋯am,), Rai=λiai, R 为相关系数矩阵,λi、
ai 是相应的特征值和单位特征向量,λ1≥λ2≥⋯≥λp≥0 。
进行主成分分析主要步骤如下:
1.根据研究问题选取指标与数据;
2.进行指标数据标准化( SPSS 软件Factor 过程自动
执行) ;
3.进行指标之间的相关性判定;
4.确定主成分个数m;
5.确定主成分Fi 表达式;
6.进行主成分Fi 命名;
主成分分析在SPSS 中的操作应用
# 慧聪国际行业研究院广州分公司张文霖
{
理论与方法
一、引言
二、主成分分析原理和模型[1]
#$
市场研究■ 2005 ■12
7.计算综合主成分值并进行评价与研究。
( 一) 指标选取原则
本文所选取的数据来自《中国统计年鉴2003》中
2002 年的统计数据,在沿海10 个省市经济状况主要指标
体系中选取了10 个指标:
X1———GDP X2———人均GDP
X3———农业增加值X4———工业增加值
X5———第三产业增加值X6———固定资产投资
X7———基本建设投资
X8———国内生产总值占全国比重(%)
X9———海关出口总额
X10———地方财政收入
( 二) 主成分分析在SPSS 中的具体操作步骤
运用SPSS 统计分析软件Factor 过程[2]对沿海10 个
省市经济综合指标进行主成分分析。具体操作步骤如下:
1.Analyze →Data Reduction →Factor Analysis, 弹出
Factor Analysis 对话框
2.把X1~X10 选入Variables 框
3.Descriptives: Correlation Matrix 框组中选中Coefficients,
然后点击Continue, 返回Factor Analysis 对话框
4.点击“OK”
理论与方法
三、对沿海10 个省市经济综合指标进
行主成分分析
!"
12 ■2005 ■市场研究
SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会
自动对原始数据进行标准化处理, 所以在得到计算结果
后的变量都是指经过标准化处理后的变量, 但SPSS 并不
直接给出标准化后的数据, 如需要得到标准化数据, 则需
调用Descriptives 过程进行计算。
从表3 可知GDP 与工业增加值, 第三产业增加值、
固定资产投资、基本建设投资、社会消费品零售总额、地
方财政收入这几个指标存在着极其显著的关系, 与海关
出口总额存在着显著关系。可见许多变量之间直接的相
关性比较强, 证明他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1
的前m 个主成分。特征值在某种程度上可以被看成是表
示主成分影响力度大小的指标, 如果特征值小于1, 说明
该主成分的解释力度还不如直接引入一个原变量的平均
解释力度大, 因此一般可以用特征值大于1 作为纳入标
准。通过表4( 方差分解主成分提取分析) 可知, 提取2 个
主成分, 即m=2, 从表5( 初始因子载荷矩阵) 可知GDP、工
业增加值、第三产业增加值、固定资产投资、基本建设投
资、社会消费品零售总额、海关出口总额、地方财政收入
在第一主成分上有较高载荷, 说明第一主成分基本反映
了这些指标的信息; 人均GDP 和农业增加值指标在第二
主成分上有较高载荷, 说明第二主成分基本反映了人均
GDP 和农业增加值两个指标的信息。所以提取两个主成
|