楼主: 匿名
130218 57

[Stata] [Stata] 主成分分析在STATA中的实现以及理论介绍   [推广有奖]

匿名网友
楼主
匿名网友  发表于 2015-7-18 20:03:59 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

主成分分析在STATA中的实现以及理论介绍

转自 http://wenku.baidu.com/view/c90a10816529647d27285208.html?re=view


        主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。

公式1.JPG

主成分的模型表达式为:

公式2.JPG

        其中,a称为得分,b称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。

         Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比较好(meritorious);0.90-1.00,非常好(marvelous)。

SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

成分载荷、KMO、SMC等指标都可以通过extat命令进行分析。

多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T检验。

1 主成分估计

Stata可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。

1

  1. sysuse auto,clear
  2. pcatrunk weight length headroom
  3. pcatrunk weight length headroom, comp(2) covariance
复制代码

2

  1. webuse bg2,clear
  2. pcabg2cost*, vce(normal)
复制代码

2 Estat

estat给出了几个非常有用的工具,包括KMO、SMC等指标。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. estatanti
  4. estatkmo
  5. estatloadings
  6. estatresiduals
  7. estatsmc
  8. estatsummarize
复制代码

3 预测

Stata可以通过predict预测变量得分、拟合值和残差等。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. predict score fit residual q   
复制代码

备注:q代表残差的平方和)

4 碎石图

碎石图是判断保留多少个主成分的重要方法。命令为screeplot。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. screeplot
复制代码

5 得分图、载荷图

得分图即不同主成分得分的散点图。命令为scoreplot。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. scoreplot
复制代码

载荷图即不同主成分载荷的散点图。命令为loadingplot。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. loadingplot
复制代码

6 旋转

对载荷进行旋转的命令格式为rotate。

  1. webusebg2,clear
  2. pcabg2cost*, vce(normal)
  3. rotate
复制代码

数据1.JPG

数据2.JPG


程序

  1. clear
  2. *定义变量的标签
  3. label var area  省份
  4. label var x1  "GDP  (亿元)"
  5. label var x2  "居民消费水平(元)"
  6. label var x3  "固定资产投资(亿元)"
  7. label var x4  "职工平均工资(元)"
  8. label var x5  "货物周转量 (亿吨公里)"
  9. label var x6  "居民消费价格指数 (上年100)"  
  10. label var x7  "商品零售价格指数  (上年100)"
  11. label var x8  "工业总产值  (亿元)"
  12. describe
  13. pca x1-x8 /*主成分估计*/
  14. estat kmo /*KMO检验,越高越好*/
  15. estat smc /*SMC检验,值越高越好*/
  16. screeplot  /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/
  17. predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/
  18. predictf1 f2 f3
  19. predictq1 q2 q3
  20. scoreplot,mlabel(area) yline(0)xline(0) /*得分图1*/
  21. scoreplot,xtitle("经济社会总量") ytitle("人民生活水平") ///
  22. mlabel(area) yline(0) xline(0) /*得分图*/
  23. scatter f2 f3,xtitle("人民生活水平") ytitle("物价水平") ///
  24. mlabel(area) yline(0)xline(0)  /*得分图*/
  25. scoreplot, factors(3)mlabel(area)  /*得分图*/
  26. scoreplot,combined factors(3)mlabel(area) yline(0) xline(0)  /*得分图*/
  27. loadingplot , yline(0) xline(0)/*载荷图*/
  28. loadingplot , combined factors(3)yline(0) xline(0)/*载荷图 */
  29. rotate  /*旋转*/
复制代码

分析:

先对数据进行标准化处理后,接着进行主成分分析,可以得到:

表1-2.JPG

表1-1.JPG

从表中看到,前3个特征值累计贡献率已达90.27%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值。通过对载荷矩阵进行旋转,可得到,相应的特征向量,见下表:

表2.PNG

表2-2.JPG

在第一主成分的表达式中第一、第三、第八项指标的系数较大,这三项指标起主要作用,我们可以把第一主成分看成是由国内生产总值、固定资产投资、工业总产值所刻划的反映经济社会总量的综合指标;

在第二主成分中,第二、第三、第四项指标的影响大,且第二、第四项的影响较大,因此可以把第二主成分看成是由居民消费水平、职工平均工资表示的反映人民生活水平的综合指标;

在第三主成分中,第六、第七项指标大于其余的指标,可看成是受居民消费价格指数、商品零售价格指数的影响,反映物价水平的综合指标。


在这次的主成分分析里面,我们可以进行些检验以验证我们分析的效果,通过KMO检验和SMC检验,得到了下面的检验值:


3-1.JPG

3-2.JPG

       Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比较好(meritorious);0.90-1.00,非常好(marvelous)。

SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

根据KMO越高,表明变量的共性越强和SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。从上表可以看出,在该例中,各变量基本符合要求。


通过碎石图,我们可以很直观的看出各个特征值的大小。在该图中,特征值等于1处的水平线标示了保留主成分分析的分界点,同时再次强调了本例中的成分4到8并不重要。

碎石图

碎石图.png



通过predict我们可以得出各个观察变量的所对应的各个主成分的线性组合(即得分)。

在得分图里,我们可以看到不同地区在第一、第二主成分里各自的得分情况。

得分图


得分图.jpg


得分2.jpg



通过载荷图,我们可以直观看出各个变量对主成分影响的大小。



载荷图

载荷.jpg


载荷2.jpg





运行rotate进行旋转后,我们将旋转后的结果和旋转前的结果进行比较,可以发现每一个观察变量独自构成一个主成分,方差贡献相等,都为12%。







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata 主成分分析 tata 主成分 meritorious 信息

回帖推荐

yoga1 发表于6楼  查看完整内容

比如说我想研究A和B对C的影响,但是B的指标有8个,然后我用主成分分析法降维后得到3个主成分。那最后再进行A和B对C的回归分析时要怎么做呀?
已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
xddlovejiao1314 + 100 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 100  论坛币 + 100  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

本帖被以下文库推荐

沙发
xddlovejiao1314 学生认证  发表于 2015-7-19 18:02:10 |只看作者 |坛友微信交流群
好贴,谢谢分享,再接再厉。
已有 1 人评分论坛币 收起 理由
niuniuyiwan + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

使用道具

藤椅
yoga1 发表于 2016-11-10 21:38:36 |只看作者 |坛友微信交流群

想问问最后把得到的综合指标应用到多元回归中,在stata中具体要怎么操作呀?
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
unparalleled + 20 精彩帖子
niuniuyiwan + 5 + 5 + 5 精彩帖子

总评分: 经验 + 20  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

板凳
yoga1 发表于 2016-11-10 21:38:50 |只看作者 |坛友微信交流群

想问问最后把得到的综合指标应用到多元回归中,在stata中具体要怎么操作呀?
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
unparalleled + 20 精彩帖子
niuniuyiwan + 5 + 5 + 5 精彩帖子

总评分: 经验 + 20  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

报纸
BlackHawk123 在职认证  发表于 2016-11-11 06:59:25 来自手机 |只看作者 |坛友微信交流群
yoga1 发表于 2016-11-10 21:38
想问问最后把得到的综合指标应用到多元回归中,在stata中具体要怎么操作呀?
因子分析本质上已是回归,如果有人口学指标,令其为虚拟变量。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 5 + 5 + 5 精彩帖子

总评分: 学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

地板
yoga1 发表于 2016-11-11 09:41:11 |只看作者 |坛友微信交流群
BlackHawk123 发表于 2016-11-11 06:59
因子分析本质上已是回归,如果有人口学指标,令其为虚拟变量。
比如说我想研究A和B对C的影响,但是B的指标有8个,然后我用主成分分析法降维后得到3个主成分。那最后再进行A和B对C的回归分析时要怎么做呀?
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 5 + 5 + 5 精彩帖子

总评分: 学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

7
BlackHawk123 在职认证  发表于 2016-11-13 20:45:02 |只看作者 |坛友微信交流群
yoga1 发表于 2016-11-11 09:41
比如说我想研究A和B对C的影响,但是B的指标有8个,然后我用主成分分析法降维后得到3个主成分。那最后再进 ...
最好使用SPSS 分析——>降维-------->因子分析------->在选择变量 框中点击B的指标

使用道具

8
shen999 发表于 2017-8-11 16:46:42 |只看作者 |坛友微信交流群
谢谢啦

使用道具

9
静物无声 在职认证  发表于 2017-12-3 22:30:51 |只看作者 |坛友微信交流群

使用道具

10
ViolaMUU 发表于 2018-1-23 10:50:24 |只看作者 |坛友微信交流群
好贴,正好用到,收藏啦,谢谢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 06:39