|
主成分分析是最开始由是K.皮尔森对非随机变量引入的,随后H.霍特林将此方法推广到了随机向量,它是考察多个变量之间是否存在相关性的一种方法。它采用了降低维度的方法,通过将之前各个相关的变量通过正交变换转换成相互之间不相关的新的随机变量,原随机变量的协方差矩阵就变成了对角矩阵。数据得以简化之后,原来的指标就变成了几个较少的主成分,然后把这几个主成分的贡献率为权数进行加权平均,最终得到一个综合的评价函数。主成分分析法在人口统计学、数量地理学、数理分析学科中都有广泛的应用,主成分分析有以下几个优点:首先,它的目的是提取信息,对样本量没有很严格的要求;第二,能够减少选择指标的工作量。其他的很多评价方法由于难以消除指标间的相互影响,因此在变量的选择方面要求很严格。主成分分析法能够消除各变量之间的相互影响,使得在选择变量方面相对容易;第三,在综合评价中,各个权数的确定是客观的,各个主成分的贡献率就是其权数,这样就避免了模型中人为确定权数的问题。
假设有N个原始变量,表示为X1,X2,X3,…..Xn,F1,F2,F3,…..Fn是主成分之后的变量,A是变量之间的相关系数矩阵,那么线性表达式为:
F1=A11X1+A12X2+…..+A1nXn
F2=A21X1+A21X2+…..+A2nXn
…..
Fn=An1X1+An2X2+…..+AnnXn
满足的条件如下:
(1)系数矩阵A是正交矩阵,且每个主成分的系数Aij的平方和为1。即
A11+ A12+……A1n=1
(2)主成分即新生成的变量之间要相互独立,即没有重叠的信息。即
Cov(Fi,Fj)=0,i≠j,j=1,2,...n
(3)主成分变量间的方差依次递减,即其重要性依次递减
Var(F1)≥Var(F1)≥... ≥Var(Fn)
|