楼主: HN-yifan
13712 12

[统计软件与数据分析] 关于主成分分析--方法是否适用 [推广有奖]

11
superlaw 发表于 2015-3-21 23:20:49
悠游的快乐 发表于 2015-3-20 16:36
可以用主成分分析,用31个市某一年的20个经济指标进行分析,找出其中特征值较高的指标,就是对经济影响较大 ...
PCA是不适用的,因为目的很明确:要对中国城市的经济发展状况做分析,目的是找到影响中国经济发展状况的因素(或因素集)。“影响中国经济发展状况”,发展是有强烈时间因素。如果用主成分分析,抹掉年份和省份的区别。举一个最极端的例子,发达的省份和贫困的省份,各自每年的GDP都呈白噪声分布,没有任何的趋势和发展而言,就是随机分布,那么同样,你用PCA也可以得到一个结论,但这结论显然无法满足需求。其二,用PCA做主成分分析或者因子分析,最终得到是描述性的隐变量,而不是一个具体的原始变量,所以,为了解决楼主的问题,强烈建议使用回归而不是PCA。数据挖掘做到极致,是对问题的理解,而不是简单的数据套用算法和方法,大家共勉~~~

12
Cathy5 在职认证  发表于 2020-1-14 11:20:17
学习了!!

13
110199837 在职认证  发表于 2020-1-17 22:43:43
PCA当然可以用,但主要用来降维,看你这维度也不是很多,所以自然会有人建议直接回归。

取均值的方法不建议,你这样本量维度本来就不是很高,再取个均值信息全被过滤了,横截面上全国取个均值很容易忽略东西部的差异,时间轴上取均值更不行,毕竟还包括08金融危机09这段时间。直接回归可以做,断点回归也可以考虑。

其实任何的统计方法都要看你的目的,如果只是看城市发展的状况,发展怎么样,统计包括回归方法附带合适的描述性统计这就够了,PCA反而达不到目的。比如说你要有每个市这么多年的数据,或者很多几百个指标,那可能是要PCA或者聚类什么弄一下好降维,你这维度本来不是很高,再用PCA不仅效果没什么,做出来指标反而也不一定好解释。当然,做肯定是可以做的,做研究也都是这样,各种方法都来做。

说到底,你这问题,“找影响中国经济发展的因素”,这几个样本是不可能做到这任务的,你识别出来结果无非是比如说一个省他制造业比例比较高那么发展好,或者政府投资比较多发展好,就得到这个,还是那句话,看你目的。如果你的报告出这结果说政府投资多的地方就发展好比如报告写成这样你就觉得可以交差了,那就可以这么干,用回归也好PCA也好,都可以,但是如果你的报告要求更多字数,或者要求分析更深入,那就得用其他的方法甚至需要空间面板你做区域之间交叉项回归来显示,毕竟中国经济发展因素你从地区来看肯定还是沿海东部地区发展更快,怎么来的当然和全国其他地区的什么物流,劳动力流入东部有关。这就属于深入的分析。你要是要这种结果那肯定至少得PCA了。还是看你这报告到底要写到什么程度,这个必须自己明白或者问领导或者导师问明白。

随便上个图不管那么多了。

市值结构1.jpg (56.48 KB)

需要: 10 个论坛币  [购买]

随机文件

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 11:54