论坛 VIP服务 论文检测 案例库 期刊 毕业论文库
vvb
vv
cc
您的位置 > 风险管理

风险管理论文范文

影响成品钢材需求量的回归分析来源:人大经济论坛论文库 作者:韩 金 伟 时间:2014-03-25

  

  

2011—2012学年第二学期《数据分析》期末论文



      题    目  影响成品钢材需求量的回归分析 

      姓    名         韩  金  伟            

      学    号         20091021135           

      系(院)         数  学  系            

      专    业       数学与应用数学          




            2012年 6 月 19 日

    
题目:影响成品钢材需求量的回归分析
摘要:随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际发展情况和意义。
关键字:线性回归   回归分析   社会经济   回归模型  成品钢材   多元回归       国家经济  社会发展





















目        录
第1章 题目叙述 1
第2章 问题假设 1
第3章 问题分析 2
第4章 数据的预处理 3
4.1 曲线统计图 3
4.2 散点统计图 4
4.3 样本的相关系数 4
第5章 回归模型的建立 5
第6章 回归模型的检验 6
6.1 F检验 6
6.2 T检验 6
6.3 T检验分析 6
6.4 Chow断点检验 8
6.5 Chow预测检验 8
 第7章 违背模型基本假设的情况 9
7.1 异方差性的检验 9
7.1.1残差图示检验 9
7.1.2 怀特(White)检验 9
7.2 自相关性的检验 10
7.2.1 LM检验 10
7.2.2 DW检验 10
第8章 自变量选择与逐步回归 10
8.1 前进逐步回归法 10
8.1.1 前进逐步回归 10
8.1.2 前进逐步回归模型预测 11
8.2 后退逐步回归法 12
8.2.1 后退逐步回归 12
8.2.2 后退逐步回归模型预测 13
第9章 多重共线性的诊断及消除 14
9.1 多重共线性的诊断 14
9.2 消除多重共线性 15
第10章 回归模型总结 17
参考文献 18
附录: 19



 
影响成品钢材需求量的回归分析
第1章 题目叙述
 理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,1980——1998年的有关数据如下表。本题旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。
    数据来源:易丹辉.数据分析与EViews应用.中国人民大学出版社.2008(教材第85页)。
    原始数据(中国统计年鉴):
年份 成品钢材(万吨) 原油(万吨) 生铁(万吨) 原煤(亿吨) 发电量(亿千瓦时) 铁路货运量(万吨) 固定资产投资额(亿元) 居民消费(亿元)
1980 2716.2 10595 3802.4 6.2 3006.2 111279 910.9 2317.1
1981 2670.1 10122 3416.6 6.2 3092.7 107673 961 2604.1
1982 2902 10212 3551 6.66 3277 113495 1230.4 2867.9
1983 3072 10607 3738 7.15 3514 118784 1430.1 3182.5
1984 3372 11461.3 4001 7.89 3770 124074 1832.9 3674.5
1985 3693 12489.5 4384 8.72 4107 130709 2543.2 4589
1986 4058 13068.8 5064 8.94 4495 135635 3120.6 5175
1987 4356 13414 5503 9.28 4973 140653 3791.7 5961.2
1988 4689 13704.6 5704 9.8 5452 144948 4753.8 7633.1
1989 4859 13764.1 5820 10.54 5848 151489 4410.4 8523.5
1990 5153 13830.6 6238 10.8 6212 150681 4517 9113.2
1991 5638 14009.2 6765 10.87 6775 152893 5594.5 10315.9
1992 6697 14209.7 7589 11.16 7539 157627 8080.1 12459.8
1993 7716 14523.7 8739 11.51 8395 162663 13072.3 15682.4
1994 8482 14608.2 9741 12.4 9281 163093 17042.1 20809.8
1995 8979.8 15004.94 10529.27 13.61 10070.3 165885 20019.3 26944.5
1996 9338.02 15733.39 10722.5 13.97 10813.1 168803 22974 32152.3
1997 9978.93 16074.14 11511.41 13.73 11355.53 169734 22913.5 34854.6
说明:由于数据是经过人工录入的,经反复对照没有发现错误,因此就采用了此数据做回归模型。但是也不能排除在录入过程中会出现一些小的错误,所以回归模型仅满足上表数据。

第2章 问题假设
      为了问题的简洁明了,现对题目中的变量给出以下假设:中国成品钢材的需求量为 (万吨)、原油产量 (万吨)、生铁产量 (万吨)、原煤产量 (亿吨)、发电量 (亿千瓦时)、铁路货运量 (万吨)、固定资产投资额 (亿元)、居民消费 (亿元)、政府消费 (亿元)作为影响变量,而且本题收集的数据均为定量变量,其符号和经济意义如下表:
变量 符号 代表意义
中国成品钢材的需求量为(万吨)  
成品钢材需求总量
原油产量(万吨)  
原油工业发展水平
生铁产量(万吨)  
生铁工业发展水平
原煤产量(亿吨)  
原煤工业发展水平
发电量(亿千瓦时)  
发电技术水平
铁路货运量(万吨)  
运输产业水平
固定资产投资额(亿元)  
固定资产支出水平
居民消费(亿元)  
居民支出水平
政府消费(亿元)  
政府支出水平

第3章 问题分析
     在上述问题中,中国成品钢材的需求量 (万吨)的影响因素不只是原油产量 (万吨),还有生铁产量 (万吨)、原煤产量 (亿吨)、发电量 (亿千瓦时)、铁路货运量 (万吨)、固定资产投资额 (亿元)、居民消费 (亿元)、政府消费 (亿元)等,这样因变量 就与多个自变量 有关。因此,我们就可以采用多元线性回归进行问题的分析。
    多元线性回归模型的基本形式:设随机变量 与一般变量 的理论线性回归模型为:
                     
其中, 是 个未知参数, 称为回归常数, 称为回归系数。 称为被解释变量(因变量),而 是 个可以精确测量并可控制的一般变量,称为解释变量(自变量)。 是随机误差,与一元线性回归一样,对随机误差项我们常假定
                              

                   
为理论回归方程。

第4章 数据的预处理
4.1 曲线统计图
 
  分析:从曲线统计图上我们可以大致的来看,变量 和因变量 在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。 的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.2 散点统计图
     分析:从散点统计图上我们可以细致的来看,变量 (铁路运货量)的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为一些特殊事件而导致的铁路运输量降低。 与 在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。但是 (原油)与 (原煤)的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.3 样本的相关系数
 
    分析:从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量 有高度的线性相关性,适合做 与8个自变量的多元线性回归。(说明:本表格是由EViews软件计算得出,但由于不能导出,所以通过保存成图片后经WPS截图工具截得。)

第5章 回归模型的建立
    将原始数据导入到Eviews6.0(破解版)的数据框中,然后用Eviews软件做线性回归分析如下:
在Eviews主窗口菜单单击Quick/Estimate Equation,弹出方程估计窗口,再在弹出的窗口清单内填入以下回归方程的书写形式。
整形式 : 
    y=c(1)+c(2)*x1+c(3)*x2+c(4)*x3+c(5)*x4+c(6)*x5+c(7)*x6+c(8)*x7+c(9)*x8
简化形式 : 
                     y c x1 x2 x3 x4 x5 x6 x7 x8
这里我们采用简化形式执行后得到输出结果为:


Variable Coefficient    Std. Error   t-Statistic      Prob.


C -381.4846 912.1465 -0.418227 0.6846
X1 0.121818 0.107424 1.133993 0.2833
X2 0.124884 0.187062 0.667607 0.5195
X3 -149.1537 121.3537 -1.229083 0.2472
X4 0.653366 0.276937 2.359260 0.0400
X5 0.003058 0.023349 0.130959 0.8984
X6 0.081378 0.042124 1.931870 0.0822
X7 -0.120128 0.046747 -2.569723 0.0279
X8 0.393966 0.239413 1.645552 0.1309


R-squared 0.999009     Mean dependent var 5742.518
Adjusted R-squared 0.998215       S.D. dependent var 2679.609
S.E. of regression 113.1993      Akaike info criterion 12.60169
Sum squared resid 128140.8     Schwarz criterion 13.04906
Log likelihood -110.7161      Hannan-Quinn criter. 12.67740
F-statistic 1259.526     Durbin-Watson stat 2.245475
Prob(F-statistic) 0.000000


    分析:从模型汇总表中可以看出,决定系数 ,由决定系数看回归模型高度显著。又由 ,P值=0.000000,回归模型通过了F检验,表明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000。说明 整体上对 有高度显著的线性影响。
    表中第二列是我们的回归方程参数估计值,由此可以得到 对8个自变量的线性回归方程为:
           
              
 从回归方程中可以看到, 对成品钢材需求量起正影响, 对成品钢材需求量起负影响。从实际社会生活来看,原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,我们对它进行更深层次的分析。

第6章 回归模型的检验
6.1 F检验



F-statistic  1259.526
Prob(F-statistic) 0.000000


   分析:从表中结果可以看出,Prob(F-statistic)即相伴概率P值,由 ,P值=0.000000<0.05,可知此回归方程拒绝零假设,即做出8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000,回归方程通过了F检验。

6.2 T检验



Variable t-Statistic   Prob.


C -0.418227 0.6846
X1 1.133993 0.2833
X2 0.667607 0.5195
X3 -1.229083 0.2472
X4 2.359260 0.0400
X5 0.130959 0.8984
X6 1.931870 0.0822
X7 -2.569723 0.0279
X8 1.645552 0.1309


分析:通过看上面的T检验表可以发现,在显著性水平 时,只有 的Prob(收尾概率)小于0.05,通过了显著性检验。

6.3 T检验分析
为了尽可能的保留合理变量,我们就针对逐个变量给以T检验分析,逐步剔除不合理的变量,使回归模型更完善。因此我们首先剔除Prob最大的变量 ,再做回归分析的T检验如下:




Variable Coefficient Std. Error t-Statistic Prob.


C -274.5262 387.5811 -0.708307 0.4935
X1 0.132601 0.065838 2.014055 0.0691
X2 0.120529 0.175666 0.686125 0.5068
X3 -137.5335 79.00025 -1.740925 0.1096
X4 0.677570 0.196814 3.442693 0.0055
X6 0.082361 0.039555 2.082205 0.0615
X7 -0.123567 0.036909 -3.347908 0.0065
X8 0.387785 0.223983 1.731314 0.1113


     分析:剔除 后,在显著性水平 时,有 的Prob(收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了 后,通过T检验的变量增多了,这是一个很好的结果。因此我们再剔除Prob最大的变量 ,再做回归分析的T检验如下:



Variable Coefficient Std. Error t-Statistic Prob.


C -279.1420 378.8809 -0.736754 0.4754
X1 0.153961 0.056719 2.714474 0.0188
X3 -151.0344 74.80430 -2.019061 0.0664
X4 0.772202 0.137273 5.625307 0.0001
X6 0.099512 0.029972 3.320207 0.0061
X7 -0.134592 0.032486 -4.143096 0.0014
X8 0.402994 0.217913 1.849332 0.0892


    分析:剔除 后,在显著性水平 时,有 的Prob(收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了 后,通过T检验的变量又增多了一个。因此我们再剔除Prob最大的变量 ,再做回归分析的T检验如下:


Variable Coefficient Std. Error t-Statistic Prob.


C -108.8183 400.2650 -0.271866 0.7900
X1 0.149526 0.061718 2.422751 0.0307
X3 -248.8000 57.63980 -4.316463 0.0008
X4 0.977544 0.087907 11.12020 0.0000
X6 0.126790 0.028416 4.462005 0.0006
X7 -0.084069 0.019143 -4.391499 0.0007


R-squared 0.998669           Mean dependent var 5742.518
Adjusted R-squared 0.998157             S.D. dependent var 2679.609
S.E. of regression 115.0260          Akaike info criterion 12.58028
Log likelihood -113.5127          Hannan-Quinn criter. 12.63076
F-statistic 1951.080             Durbin-Watson stat 1.886506
Prob(F-statistic) 0.000000


    分析:剔除 后,在显著性水平 时,剩余变量 的Prob(收尾概率)都小于0.05,全部通过了显著性T检验。以 做回归分析的输出表来看,决定系数 ,由决定系数看回归模型仍然具有高度的显著性。又由 ,P值=0.000000,回归模型通过了F检验,表明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000。说明 整体上对 有高度显著的线性影响。
    表中第二列是我们的回归方程参数估计值,由此可以得到 对5个自变量的线性回归方程为:
         
从回归方程中可以看到, 对成品钢材需求量起正影响, 对成品钢材需求量起负影响。此时回归方程虽然通过了F,T检验,但是增加了不合理变量 所占回归方程的比重,这也是不合社会实际的。

6.4 Chow断点检验
    该检验的思想是对每个子样本单独拟合方程来观察估计方程是否有显著差异。零假设是两个子样本拟合的方程无显著差异。

Chow Breakpoint Test: 1990
Equation Sample: 1980 1998


F-statistic 7992.972                             Prob. F(9,1) 0.0087
Log likelihood ratio 212.4876 Prob. Chi-Square(9) 0.0000
Wald Statistic 71936.75 Prob. Chi-Square(9) 0.0000


    分析:从检验表中可以看出,由于,检验量的收尾概率分别是0.0087,0.0000,0.0000
,所以回归模型接受原假设,说明模型参数有超样本特性,回归方程没有显著差异,回归模型具有稳定性。

6.5 Chow预测检验
该检验的思想,Chow预测检验先对包含前 个观测值的子样本建立模型,然后用这个模型对后 个观测值的自变量进行预测,若实际值与预测值有很大变动,就可以怀疑这两个子样本估计关系的稳定性。 

Chow Forecast Test: Forecast from 1990 to 1998


F-statistic 7992.972 Prob. F(9,1) 0.0087
Log likelihood ratio 212.4876 Prob. Chi-Square(9) 0.0000


分析:从Chow预测检验表中可以看出,检验量的收尾概率分别为0.0087,0.0000,说明回归模型的预测值和实际值没有很大的波动,所以就可以认为回归模型是稳定的。

第7章 违背模型基本假设的情况
7.1 异方差性的检验
7.1.1残差图示检验
    我们分别以回归标准化残差和因变量y来绘制残差图分析模型是否存在异方差。
 
分析:从残差的散点图上我们可以看出,回归的标准化残差随因变量y的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回归模型不存在异方差。

7.1.2 怀特(White)检验
    怀特检验,是把 作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。怀特检验的统计量是 , 是样本观测量, 是辅助回归的拟合优度。本题的怀特检验如下:

Heteroskedasticity Test: White


F-statistic 1.958884              Prob. F(8,10) 0.1579
Obs*R-squared 11.59867               
                Prob.Chi-Square(8) 0.1700
Scaled explained SS 1.445422                
                 Prob.Chi-Square(8) 0.9936


分析:上表中Obs*R-squared即为 ,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。

7.2 自相关性的检验
7.2.1 LM检验
    LM检验是根据决定系数 和F检验值的收尾概率大小来判断是否存在自相关性。原假设:残差不存在从一阶到p阶的自相关。检验统计量为 。

Breusch-Godfrey Serial Correlation LM Test:


F-statistic 3.174716              Prob. F(2,8) 0.0966
Obs*R-squared 8.407246              
                  Prob.Chi-Square(2) 0.0149


    分析:从LM检验表的收尾概率来看,prob(收尾概率)都大于0.01,F检验的收尾概率大于0.05,但是都小于0.1,。由此来看检验模型存在自相关。
7.2.2 DW检验
    对于自相关性我们用DW检验来判断,已知回归估计式的残差 来定义DW统计量,假设有 ,通过化简后DW值与 的关系式为 ,在Eviews中运行结果如下表(只选取了DW的统计值):



 Durbin-Watson stat 2.245475


分析:从表中的数据我们可以看到, =2.245475,因而可以近似的计算出 ,通过查表可以判断出误差项的自相关性成轻微的负自相关(由于自相关性不是很明显,所以在这里就不做自相关性的消除)。

第8章 自变量选择与逐步回归
8.1 前进逐步回归法
8.1.1 前进逐步回归
    取显著性水平 进行逐步回归检验选变量。


Variable Coefficient Std. Error t-Statistic Prob.*


C 196.0980 259.5932 0.755405 0.4617
X2 0.499933 0.159589 3.132632 0.0068
X4 0.503581 0.170954 2.945705 0.0100
X3 -110.5429 45.39905 -2.434917 0.0279


R-squared 0.997746         Mean dependent var 5742.518
Adjusted R-squared 0.997296         S.D. dependent var 2679.609
S.E. of regression 139.3449         Akaike info criterion 12.89644
Sum squared resid 291254.9         Schwarz criterion 13.09527
Log likelihood -118.5162         Hannan-Quinn criter. 12.93009
F-statistic 2213.770         Durbin-Watson stat 1.041553
Prob(F-statistic) 0.000000


        Selection Summary


Added X2
Added X4
Added X3


    分析:从逐步回归模型的汇总表中我们可以看出,逐步回归最终选取的变量为x2,x4,x3,逐步回归后模型决定系数 。逐步回归后的模型保持着回归方程高度的显著性。从表中我们可以看到,F的检验值为2213.770,P值始终是0.000000不变,由此可见模型犯错的概率始终为0.000000不变,故逐步回归后的回归方程同样具有高度的显著性。从上述表中结果可以看到逐步回归后的 回归方程为
                
由回归方程可以看出, 生铁的产量和 发电量的系数都是正数,对因变量y起正相关作用, 原煤量的系数为负值,对因变量y起负相关作用,而却从数值上看是-11.0543,对y的影响很大,这与实际情况不符,这可能是因变量 与 之间有较强的相关性。同时从表中还可以看出,用逐步回归法的选元过程为第一步引入 ,第二步引入 ,第三步引入 再形成一个符合要求的线性回归方程。

8.1.2 前进逐步回归模型预测
 
分析:如图所示是前进逐步回归的模型预测,左边是预测图,两条细线表示预测值的两倍标准误差带,右边是有关预测的一些评价指标。从他的误差带我们可以看出回归模型较为精确,误差带紧随实际曲线变动,再从右边的MAPE值为2.218047可以判定模型的预测精度较高。
8.2 后退逐步回归法
8.2.1 后退逐步回归
     取显著性水平 进行逐步回归检验选变量。


Variable Coefficient Std. Error t-Statistic Prob.*


C -279.1420 378.8809 -0.736754 0.4754
X1 0.153961 0.056719 2.714474 0.0188
X4 0.772202 0.137273 5.625307 0.0001
X3 -151.0344 74.80430 -2.019061 0.0664
X7 -0.134592 0.032486 -4.143096 0.0014
X8 0.402994 0.217913 1.849332 0.0892
X6 0.099512 0.029972 3.320207 0.0061


R-squared 0.998964            Mean dependent var 5742.518
Adjusted R-squared 0.998447           S.D. dependent var 2679.609
S.E. of regression 105.6149           Akaike info criterion 12.43479
Sum squared resid 133854.0           Schwarz criterion 12.78274
Log likelihood -111.1305            Hannan-Quinn criter. 12.49367
F-statistic 1929.141           Durbin-Watson stat 2.584581
Prob(F-statistic) 0.000000


     Selection Summary


Removed X5
Removed X2


    分析:采用后退逐步回归法最后选择的变量有 ,从后退逐步回归后模型决定系数 ,调整决定系数 ,可知模型仍然具有高度的显著性。表中F的检验值为1929.141,P值始终为0.000000不变,由此可见模型犯错的概率始终为0.000000不变。综合考虑后退逐步回归得到的模型比前进逐步回归得到的模型要好一些。对变量 与因变量 做线性回归得:



Variable Coefficient Std. Error t-Statistic Prob.


C -278.8229 476.6925 -0.584912 0.5668
X2 0.936983 0.033352 28.09335 0.0000
X5 -0.002258 0.004663 -0.484295 0.6347


由此我们可以写出关于 的线性回归方程为:
                    
    从回归的最终模型来看,此回归方程剔除了一些变量后反而变得更加显著,并且更有实际的社会意义,它消除了不合理的变量 和 。在回归方程中又新出现了负变量 (铁路运货量),虽然也是不合实际的,但是它占回归方程的比重很小因此可以不做处理。

8.2.2 后退逐步回归模型预测
 
     分析:如图所示是后退逐步回归的模型预测,左边是预测图,两条细线表示预测值的两倍标准误差带,右边是有关预测的一些评价指标。从他的误差带我们可以看出回归模型同样较为精确,误差带紧随实际曲线变动,而却紧随的效果要比前进回归模型的要好,贴近实际曲线的效果也前进逐步回归模型的好,再从右边的评价指标RMSE值为83.93419,MAE值为67.52228,MAPE值为1.320141,都比前进逐步回归模型的数值小,从而可以判定模型的预测能力比前进逐步回归模型的预测好,精度高。

第9章 多重共线性的诊断及消除
9.1 多重共线性的诊断
    由于Eviews软件无法对模型多重共线作出诊断,因此这里我们就用spss19.0软件对模型做共线性诊断,关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的结果)。
模型 常量 X1 X2 X3 X4 X5 X6 X7 X8
VIF 61.091 413.326 133.044 947.996 329.438 182.413 416.185 701.380
    分析:从表中的输出结果可以看出, 的方差扩大因子VIF都很大,远远的超过了10,说明成品钢材需求量的回归方程存在着严重的多重共线性。又因为 的方差扩大因子都是大于10的,说明回归方程的多重共线性就是由自变量间的多重共线性引起的。
共线性诊断a
模型 维数 特征值 条件索引 方差比例
(常量) x1 x2 x3 x4 x5 x6 x7 x8
1 1 8.321 1.000 .00 .00 .00 .00 .00 .00 .00 .00 .00
2 .659 3.553 .00 .00 .00 .00 .00 .00 .00 .00 .00
3 .011 27.458 .04 .00 .00 .01 .00 .00 .00 .01 .00
4 .004 43.444 .01 .00 .00 .00 .00 .00 .31 .08 .00
5 .003 57.552 .00 .00 .02 .04 .01 .00 .11 .06 .05
6 .001 106.541 .12 .26 .02 .08 .02 .00 .05 .00 .02
7 .000 157.928 .05 .07 .30 .05 .02 .00 .03 .50 .69
8 .000 213.430 .01 .02 .53 .39 .36 .03 .41 .01 .18
9 4.043E-5 453.668 .78 .65 .11 .43 .60 .97 .09 .35 .05
a. 因变量: y

分析:从条件数可以看到,最大的条件数 ,说明自变量间存在严重的多重共线性,这一判断与上面的方差扩大因子法判断结果一致。表中的方差比例是按从小到大的顺序排列的,不是按自变量顺序排列的,这与方差扩大因子不同。在维数为9的时候,我们可以看到 的系数都很快的增大要接近1,这也可以说明 之间存在较强的多重共线性。

9.2 消除多重共线性
    在前面多重共线性的诊断中我们看到 的方差扩大因子 为最大,因此剔除 ,建立 与 的回归方程。关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的结果)。
模型 常量 X1 X2 X3 X5 X6 X7 X8
VIF 38.881 248.129 130.880 174.510 133.668 372.202 525.920
    分析:从剔除了自变量 的回归模型中我们可以看到 的方差扩大因子 为最大,却远大于10,因此再剔除 ,建立 与 的回归方程。关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的VIF结果)。
模型 常量 X1 X2 X3 X5 X6 X7
VIF 35.514 169.934 108.057 174.510 132.017 101.870
    分析:从剔除了自变量 的回归系数表中我们可以看到 的方差扩大因子 为最大,却远大于10,因此再剔除 ,建立 与 的回归方程。相关输出结果如下:
模型 常量 X1 X2 X3 X6 X7
VIF 23.178 93.590 23.358 124.084 64.691
    分析:从剔除了自变量 的回归系数表中我们可以看到 的方差扩大因子 为最大,还是远大于10,因此再剔除 ,建立 与 的回归方程。相关输出结果如下:
模型 常量 X1 X2 X3 X7
VIF 16.425 49.766 23.101 24.008
    分析:从剔除了自变量 的回归系数表中我们可以看到 的方差扩大因子 为最大,还是大于10,因此再剔除 ,建立 与 的回归方程。相关输出结果如下:
模型 常量 X1 X3 X7
VIF 15.743 19.226 4.511
    分析:从剔除了自变量 的回归系数表中我们可以看到 的方差扩大因子 为最大,还是大于10,因此再剔除 ,建立 与 的回归方程。相关输出结果如下:
模型 常量 X1 X7
VIF 3.694 3.694
    分析:从剔除了自变量 的回归系数表中我们可以看到,剩下的自变量 的方差扩大因子分别为 ,都是小于10的,而却回归系数也都有合理的社会经济解释,说明此回归模型不存在较强的多重共线性了,可以作为最终的回归模型。现在我们用Eviews软件建立 与 的回归模型:


Variable Coefficient Std. Error t-Statistic Prob.


C -2210.934 1272.616 -1.737314 0.1015
X1 0.439863 0.109724 4.008811 0.0010
X7 0.161103 0.018294 8.806406 0.0000


R-squared 0.972630          Mean dependent var 5742.518
Adjusted R-squared 0.969209          S.D. dependent var 2679.609
S.E. of regression 470.2027          Akaike info criterion 15.28814
Sum squared resid 3537450.          Schwarz criterion 15.43727
Log likelihood -142.2374         Hannan-Quinn criter. 15.31338
F-statistic 284.2909         Durbin-Watson stat 0.568156
Prob(F-statistic) 0.000000


 与 的回归方程为
                     
由标准化的回归方程我们可以看到,对成品钢材需求量影响较大的事原油产量和居民消费,从社会经济角度来考虑,这是贴近人民生活的两个量,其中居民消费的系数较大,影响也就较大。从整体上来看,消除多重共线性影响后得回归方程更较为符合社会实际。



R-squared 0.972630
Adjusted R-squared 0.969209
F-statistic 284.2909
Prob(F-statistic) 0.000000


分析:从表中输出结果可以看出,Prob即显著性P值,由 ,P值=0.000,可知此回归方程仍然具有高度的显著,即做出2个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。再从剔除了自变量 的新回归方程的样本决定系数 ,调整样本决定系数 。而 对8个自变量的全模型的样本决定系数 ,调整样本决定系数 。与全模型相比 的拟合优度仍然很高,并且回归系数有合理的经济解释。
第10章 回归模型总结
随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。
通过问题分析及假设建立了初步多元线性回归,再借用Eviews软件对数据进行了初步的预处理分析,得出数据符合做多元线性回归的要求。最后我们用Eviews软件给各变量做了初等多元线性回归并得到了回归方程。我了更多的了解多元线性回归方程的特征,我们对回归方程进行了F检验,T检验,将通过T检验的变量在建立回归方程分析。对于初等回归模型的稳定性,我们采用了Chow断点检验和Chow预测检验,最终检验出了模型是稳定的。然后又对初等模型否违背原假设做了异方差性检验,自相关性检验。异方差性的检验我们采用了作残差图和怀特检验法,很好的检验出了初等回归模型没有异方差性;自相关我们采用了DW检验,最终检验出了初等模型有轻微的负自相关性。为了模型更贴近实际,我们又分别进行了前进逐步回归,后退逐步回归的分析,并对两种逐步回归做了模型预测,在两种逐步回归法得到的结论中我们发现采用后退逐步回归得到的回归模型比前进逐步回归得到的模型要好一些,更为接近预测值。并且在分析中我们发现了变量之间存在共线性,因此我们又进一步借助spss软件对变量之间的多重共线性给了诊断,最后确定了确实存在多重共线性,从而又进一步对多重共线性给予了消除,重新建立了符合实际的线性回归方程。











参考文献
【1】 易丹辉.数据分析与EViews应用.北京:中国人民大学出版社,2008
【2】 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社,2011
【3】 张晓峒.EViews实用指南与案例.北京:机械工业出版社,2007
【4】 百度文库.网址:(http://www.baidu.com/s?wd=%B0%D9%B6%C8%CE%C4%BF%E2&rsv_bp=0&rsv_spt=3&inputT=4144)




















附录:
    1.关于我国原油产量 (万吨)、生铁产量 (万吨)、原煤产量 (亿吨)、发电量 (亿千瓦时)、铁路货运量 (万吨)、固定资产投资额 (亿元)、居民消费 (亿元)、政府消费 (亿元)作为影响变量,成品钢材的需求量为 (万吨)各变量的动态曲线。
 
分析:从图中我们可以明显看出,中国原油产量 (万吨)与固定资产投资额 (亿元)的曲线变化相对较大,中途 快速上升,而 却有下降部分说明1988年到1990年有相对的国事影响了曲线;我国生铁产量 (万吨)、发电量 (亿千瓦时)、居民消费 (亿元)、政府消费 (亿元)与成品钢材的需求量为 (万吨)的各变量的曲线始终随时间的增加而逐步增长;我国原煤产量 (亿吨)、铁路货运量 (万吨)在1996年突然下降,这可能是我国原煤产量 受到自然资源和国家政策影响,从而导致了铁路货运量 的下降,同时也说明了变量 可能存在相关性或共线性。
2.关于我国成品钢材的需求量为 (万吨)与原油产量 (万吨)、生铁产量 (万吨)、原煤产量 (亿吨)、发电量 (亿千瓦时)、铁路货运量 (万吨)、固定资产投资额 (亿元)、居民消费 (亿元)、政府消费 (亿元)的散点图。
 
分析:从因变量 与其他各变量的的散点图来看,他们都存在一定的线性关系,而且线性关系很明显,以此我们可以对他们做多元线性回归。



参考文献:
   参考文献 【1】 易丹辉.数据分析与EViews应用.北京:中国人民大学出版社,2008 【2】 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社,2011 【3】 张晓峒.EViews实用指南与案例.北京:机械工业出版社,2007 【4】 百度文库.网址:(http://www.baidu.com/s?wd=%B0%D9%B6%C8%CE%C4%BF%E2&rsv     

  
  
相关论文

最新论文

推荐论文

gg333