人大经济论坛 › 论坛 › 会计与财务管理论坛七区 › 会计与财务管理 › 五问主成分分析

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: shjncy

1578 8

五问主成分分析 [推广有奖]

1关注
11粉丝

教授

82%

还不是VIP/贵宾

威望: 1 级
论坛币: 3173 个
通用积分: 7.9159
学术水平: 22 点
热心指数: 29 点
信用等级: 22 点
经验: 51160 点
帖子: 879
精华: 0
在线时间: 868 小时
注册时间: 2008-2-16
最后登录: 2021-10-11

楼主

shjncy 发表于 2012-12-19 09:21:02 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

五问主成分分析.doc (26.5 KB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：主成分分析主成分主成分分析法 spss主成分分析逐步回归分析多元回归分析因子分析法应用时间序列分析

相关帖子

• CDA数据分析师认证考试

使用道具举报

沙发

xiantuquan 发表于 2012-12-19 09:32:17 |只看作者 |坛友微信交流群

晚上我老师给你答复

使用道具举报

藤椅

dujh 发表于 2012-12-19 17:25:56 |只看作者 |坛友微信交流群

其实第一个问题，关于为什么要降维，我是这么理解的。因为我们在实际操作过程中，发现能够收集的样本量是非常有限的，而你如果采用的指标非常多的时候，这个时候你就很难清楚，因变量究竟受到那个自变量的影响比较大，而且样本量和变量之间的比例过小的话，也很难得到合理的区划结果，包括在判别分析里面，要求样本量至少是变量数目的5倍，意味着你每多考虑一个变量，就要增加5个样本。所以我们通过降维可以让样本量与变量之间的比例变得更加合理一点至少，因为最终我们还是要用主成分分析的结果去进行聚类或者判别分析什么的。此外我们细心会发现，很多变量虽然不同，但他们之间有着很强的相关性，类似于我们初中学过的公因式，但必须注意的是，我们这里说的是相关关系，而不是函数关系，所以不能完全按照公因式的提取方法来理解，如果按照公因式的方法来理解，意味着我们提取的主成分可以百分百的反映原始变量的信息，但由于我们是主成分，舍弃了一些对方差贡献率相对较小的主成分，就意味着我们新的变量对于原始变量信息的总结不可能达到100%。但好处在于，我们把大部分的信息都反应了就足够了，我们最终的目的是想用它进行区划或者类型的划分，而这种区划也好，类型的判别也好，都是采用一个范围的概念进行判别，而不是确定的某个点来判别，因此当你能够保证反应原始变量大部分的信息的时候，自然不会严重的影响到我们点的类型判别，举个简单的例子，就是你如果用主成分100%的反映原始变量的时候，可能会让判别的临界点精确到某个值，但只能85%左右反映的时候，也可以保证紧缺到某个值±标准差的周围，不会影响到最终的判别结果。一句话总结就是人多嘴杂，反倒会影响决策的效率。而这些人之间的意见肯定会有相互重叠的部分，如果我们只考虑几个主流的观点，而舍弃掉部分虽然有用，但不是特别重要的观点，这样对于最终的方案决策是有利的，而且不会距离真实值差的非常远。

已有 1 人评分	经验	论坛币	学术水平	热心指数	收起理由
轩轩	+ 40	+ 50	+ 3	+ 2	鼓励积极发帖讨论

总评分: 经验 + 40 论坛币 + 50 学术水平 + 3 热心指数 + 2 查看全部评分

使用道具举报

板凳

dujh 发表于 2012-12-19 18:06:30 |只看作者 |坛友微信交流群

第二个问题关于线性相关是否信息重叠，我觉得关键看你怎么理解这个信息，两个变量线性相关，只能说两个变量之间存在着同向或者异向的变化趋势，但不能说明他们两个之间信息重叠了，因为既然是不同的变量，肯定表达的是不同的信息，只是说他们之间的信息有关系而已。而变量的线性相关是主成分分析的基础，说的是散点图上找主轴的一个概念，如果散点呈现为一个无规则的形状变化，极端情况下是一个圆形分布的时候，这个时候肯定是找不到那个轴最长的，因为穿越圆心的所有直径都是相等的，而只有变量相关的时候，才会在某个方向上表现为离散程度最大，而在另外一个相互垂直的方向离散程度最小，这样才能得到我们所说的主成分。

已有 1 人评分	论坛币	学术水平	热心指数	收起理由
轩轩	+ 20	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 20 学术水平 + 1 热心指数 + 1 查看全部评分

使用道具举报

报纸

dujh 发表于 2012-12-19 18:11:32 |只看作者 |坛友微信交流群

第三个问题，降维一定要用主成分吗？我是这样想的，主成分可以降维，但降维不一定要用到主成分，比如聚类分析里面对于变量的聚类，其实在一定程度上也可以理解为降维。大家有兴趣的话可以看具体不记得哪本书了，讲的关于元素的聚类，如果我们将这些元素能聚成一类的话，意味着他们在某些我们感兴趣的指标方面，或者说白了就是我们用来聚类的指标方面，存在着很大的相似性，既然存在着相似性，我们就可以用其中的某一个进行代替。讲的更加简单的一点就是比如感冒了，有很多的感冒药可以吃，但并不意味着我们要把所有的感冒药都吃了。我们通过成分的聚类发现，999感冒灵，维生素c片，头孢什么的可以聚为一类，这个时候，我们只需要吃其中的一个药就可以解决问题了，而不是所有的都吃，当然我不懂医学，只是举例而已。希望有助于同行们理解啦。关于变量的聚类和主成分分析在降维方面的异同点，主要表现在他们都可以起到一个降维的作用，但是主成分分析会损失掉一部分信息，而变量的聚类则不会。

已有 1 人评分	论坛币	学术水平	热心指数	收起理由
轩轩	+ 20	+ 1	+ 1	精彩帖子

总评分: 论坛币 + 20 学术水平 + 1 热心指数 + 1 查看全部评分

使用道具举报

地板

dujh 发表于 2012-12-19 18:18:51 |只看作者 |坛友微信交流群

第四个问题，主成分分析的时候，相关变量一起上吗？我是这么理解的，因为你在收集资料的时候，你很难知道两个变量之间是否存在着相关性，很多都是来自于你的主观判断而已。而且别人给你资料的时候，只要愿意给你，你都感恩戴德的，不可能还挑剔，说我要这个不要那个。而且在你对两个变量没有做散点图之前，其实你很难知道这两个变量之间究竟有无相关性，是线性相关还是非线性相关？如果你不用做这些都知道了，那肯定是来自于未来世界的先知。所以任何时候，散点图非常重要，避免安斯图姆四重奏问题出现。所以一起上问题不大，到时候最多某个主成分代表的变量多一点而已。我觉得主成分最关键的地方，就在于找出这个主成分主要受到那几个变量的影响，从而得到一个合理科学的总结。