(写在前面:最近一直对PCA一知半解,在网上查阅了很多资料后,终于领悟到了一些。以下内容并非原创,只是搬运+总结。)
以一种非专业的角度来说,什么叫信息量大?比如一集电视剧全是意想不到的内容,完全颠覆自己的预期,这就叫信息量大。
因为在PCA(主成分分析)方法中,确实把方差作为衡量信息量的指标。在我们的感性理解中,方差越大说明数据具有多样性,相关性也就越强(参考协方差的定义)。
PCA降维的目的,就是为了降噪。除去和结果关系不大的特征,保留最具相关性的特征。但是这些数据是以什么概率分布产生的?我们并不知道。这里的信息熵(endtropy)就没有太大意义了,不能开上帝视角找出最大信息熵的方向。PCA方法就是用来“揣测”和“创造”数据之间的规律。至于我们怎么区分什么是噪声,什么是主成分,就是出于这种揣测的思路找到离散程度最高的方向,而离散程度低的方向更有可能是由于噪声的干扰表现出同一性,或者反过来说就是太同一所以没什么分析价值。因此我们把注意力放在离散程度高的成分上,因为它的多样性可以帮助我们分析数据间潜在的关系。
当我们进行维度转换的时候,比如降维,我们要求,再尽量保证“信息量不丢失”的情况下,降低维度才是最好的办法。
比如我们在二维空间中,有一些数据点,它们的分布恰好是一条直线,当我们想要降维(降成一维)的时候,只需要把这条直线的方向当作“特征向量”就可以“无损耗”得到一个一维的数据集,但是在真实情况下,这几乎是不可能的。
或者从PCA的角度上来理解,我们把一个高纬度的空间影射到一个低纬度上,我们只保留那些“强正相关”的特征,即当一个“信息”变化的时候,这些维度上的变化是最多的,即信息量损失最小的维度,这也就是为什么PCA使用了协方差矩阵的原因。而方差只不过是协方差的一个特例,在这一点可以解释方差越大,信息量也越大。
所以,PCA的输入必须是矩阵类型,列为维度/特征。PCA的原始数据一定要scale,不然的话结果就会出错。因为PCA非常看重方差占比,我们数据的单位往往千差万别,不scale的话,不同维度的方差根本没有可比性。
PCA最重要的就是covariance matrix协方差矩阵,它完美的包含了我们重要的信息,变量内的方差,变量间的相关程度协方差;
事实上,PCA本身并没有降维的功能,只是PCA告诉了我们每个PC的variance结实度,我们选取top99%的PCs就能解释掉数据里的大部分信息,所以PCA才有了降维的功能!
References:
https://www.zhihu.com/question/36481348
https://www.cnblogs.com/leezx/p/6120302.html


雷达卡





京公网安备 11010802022788号







