楼主: yeahisme
5354 4

[学习分享] 对PCA的理解(为什么说“方差越大信息量越多”?)「非原创,搬运+总结」 [推广有奖]

  • 1关注
  • 1粉丝

已卖:56份资源

大专生

40%

还不是VIP/贵宾

-

威望
0
论坛币
996 个
通用积分
34.0633
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1644 点
帖子
41
精华
0
在线时间
35 小时
注册时间
2008-12-21
最后登录
2022-11-15

楼主
yeahisme 发表于 2022-2-21 09:20:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

(写在前面:最近一直对PCA一知半解,在网上查阅了很多资料后,终于领悟到了一些。以下内容并非原创,只是搬运+总结。)


以一种非专业的角度来说,什么叫信息量大?比如一集电视剧全是意想不到的内容,完全颠覆自己的预期,这就叫信息量大。


因为在PCA(主成分分析)方法中,确实把方差作为衡量信息量的指标。在我们的感性理解中,方差越大说明数据具有多样性,相关性也就越强(参考协方差的定义)。


PCA降维的目的,就是为了降噪。除去和结果关系不大的特征,保留最具相关性的特征。但是这些数据是以什么概率分布产生的?我们并不知道。这里的信息熵(endtropy)就没有太大意义了,不能开上帝视角找出最大信息熵的方向。PCA方法就是用来“揣测”和“创造”数据之间的规律。至于我们怎么区分什么是噪声,什么是主成分,就是出于这种揣测的思路找到离散程度最高的方向,而离散程度低的方向更有可能是由于噪声的干扰表现出同一性,或者反过来说就是太同一所以没什么分析价值。因此我们把注意力放在离散程度高的成分上,因为它的多样性可以帮助我们分析数据间潜在的关系


当我们进行维度转换的时候,比如降维,我们要求,再尽量保证“信息量不丢失”的情况下,降低维度才是最好的办法。


比如我们在二维空间中,有一些数据点,它们的分布恰好是一条直线,当我们想要降维(降成一维)的时候,只需要把这条直线的方向当作“特征向量”就可以“无损耗”得到一个一维的数据集,但是在真实情况下,这几乎是不可能的。


或者从PCA的角度上来理解,我们把一个高纬度的空间影射到一个低纬度上,我们只保留那些“强正相关”的特征,即当一个“信息”变化的时候,这些维度上的变化是最多的,即信息量损失最小的维度,这也就是为什么PCA使用了协方差矩阵的原因。而方差只不过是协方差的一个特例,在这一点可以解释方差越大,信息量也越大。


所以,PCA的输入必须是矩阵类型,列为维度/特征。PCA的原始数据一定要scale,不然的话结果就会出错。因为PCA非常看重方差占比,我们数据的单位往往千差万别,不scale的话,不同维度的方差根本没有可比性。


PCA最重要的就是covariance matrix协方差矩阵,它完美的包含了我们重要的信息,变量内的方差,变量间的相关程度协方差;


事实上,PCA本身并没有降维的功能,只是PCA告诉了我们每个PC的variance结实度,我们选取top99%的PCs就能解释掉数据里的大部分信息,所以PCA才有了降维的功能!


References:

https://www.zhihu.com/question/36481348

https://www.cnblogs.com/leezx/p/6120302.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:pca 信息量 References covariance Reference

已有 1 人评分论坛币 收起 理由
cheetahfly + 30 精彩帖子

总评分: 论坛币 + 30   查看全部评分

沙发
橙红的果士 学生认证  发表于 2022-2-21 13:27:21

藤椅
abelus 发表于 2022-3-2 13:56:26
得配合对eigen,最好是svd的含义,理解的会深入一些。

板凳
三江鸿 发表于 2022-5-20 08:35:25
感谢分享

报纸
abelus 发表于 2022-7-29 14:35:26
"因为在PCA(主成分分析)方法中,确实把方差作为衡量信息量的指标。在我们的感性理解中,方差越大说明数据具有多样性,相关性也就越强(参考协方差的定义)。"
这描述也忒不精确了。

信息熵-度量不确定性, 方差(标准差)是统计上度量不确定性的方式(之一)。遇到过个变量的时候,就变成covariance matrix了,这时候就的“综合整体”来看,一个不变量含义的性质就是eigensystem (A x = \lambda x),考虑到cov阵是实对称的正定阵,SVD其实都用不上(SVD可以理解为常见eigen 的一个扩展,看Strang老爷爷的论述,一遍就懂了)。在某种意义下特征值系统这种“不变量”就描述的cov矩阵的某种性质(不变的嘛),那么标准化以后,比如cov转成corr,det corr = 1 ,又等于所有特征值乘积,再根据特征值系统的性质,那个最大特征值对应的“刚好是”数据离差最大的方向;以此类推。

“方差越大,相关性越强”命题是不成立的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-3 22:19