其实第一个问题,关于为什么要降维,我是这么理解的。因为我们在实际操作过程中,发现能够收集的样本量是非常有限的,而你如果采用的指标非常多的时候,这个时候你就很难清楚,因变量究竟受到那个自变量的影响比较大,而且样本量和变量之间的比例过小的话,也很难得到合理的区划结果,包括在判别分析里面,要求样本量至少是变量数目的5倍,意味着你每多考虑一个变量,就要增加5个样本。所以我们通过降维可以让样本量与变量之间的比例变得更加合理一点至少,因为最终我们还是要用主成分分析的结果去进行聚类或者判别分析什么的。此外我们细心会发现,很多变量虽然不同,但他们之间有着很强的相关性,类似于我们初中学过的公因式,但必须注意的是,我们这里说的是相关关系,而不是函数关系,所以不能完全按照公因式的提取方法来理解,如果按照公因式的方法来理解,意味着我们提取的主成分可以百分百的反映原始变量的信息,但由于我们是主成分,舍弃了一些对方差贡献率相对较小的主成分,就意味着我们新的变量对于原始变量信息的总结不可能达到100%。但好处在于,我们把大部分的信息都反应了就足够了,我们最终的目的是想用它进行区划或者类型的划分,而这种区划也好,类型的判别也好,都是采用一个范围的概念进行判别,而不是确定的某个点来判别,因此当你能够保证反应原始变量大部分的信息的时候,自然不会严重的影响到我们点的类型判别,举个简单的例子,就是你如果用主成分100%的反映原始变量的时候,可能会让判别的临界点精确到某个值,但只能85%左右反映的时候,也可以保证紧缺到某个值±标准差的周围,不会影响到最终的判别结果。一句话总结就是人多嘴杂,反倒会影响决策的效率。而这些人之间的意见肯定会有相互重叠的部分,如果我们只考虑几个主流的观点,而舍弃掉部分虽然有用,但不是特别重要的观点,这样对于最终的方案决策是有利的,而且不会距离真实值差的非常远。
|