楼主: addreamer
4127 22

我也说一下,CPI被低估了吗? [推广有奖]

11
Brandonp 发表于 2010-11-18 15:21:25
CPI就是个指数,应该说通胀被CPI低估了吧

12
addreamer 在职认证  发表于 2010-11-18 16:34:52
10# 大可水米

你能主动承认自己的方法错误,说明足够客观,诚恳!人品刚刚滴,让人敬佩。
但我想跟你讨论的是你对方法错误的解释不是很具有说服力。你认同thunders的解释,我不认同。

你好,按照你的数据,第一列y ,后面 x1-x8
我用eviews6.0 命令 ls  y x1 x2 x3 x4 x5 x6 x7 x8
(不包含常数项)计算结果如下:
Dependent Variable: Y   
Method: Least Squares   
Date: 11/18/10   Time: 16:29   
Sample: 2006M01 2010M05   
Included observations: 53   
   
Variable Coefficient Std. Error t-Statistic Prob.  
   
X1 0.326488 0.002896 112.7334 0.0000
X2 0.115931 0.018793 6.168677 0.0000
X3 0.055935 0.012225 4.575307 0.0000
X4 0.032379 0.009146 3.540207 0.0009
X5 0.061848 0.021623 2.860258 0.0064
X6 0.114109 0.018534 6.156727 0.0000
X7 0.127404 0.011518 11.06173 0.0000
X8 0.164593 0.005447 30.21821 0.0000
   
R-squared 0.999746     Mean dependent var  102.8283
Adjusted R-squared 0.999706     S.D. dependent var  2.946927
S.E. of regression 0.050487     Akaike info criterion  -2.995944
Sum squared resid 0.114702     Schwarz criterion  -2.698542
Log likelihood 87.39252     Hannan-Quinn criter.  -2.881577
Durbin-Watson stat 1.661585   
   
sum(Coefficient)=

0.998688

感觉可以呀。

当然,你的回归有常数项,回归结果里面常数项存在而且远远偏离零。没有得出我的结果,肯定你的回归R2比我的好,不然结果肯定是我这个了 呵呵

13
addreamer 在职认证  发表于 2010-11-18 16:47:55
另外,我用ls x1 x2 x3 x4 x5 x6 x7 x8,然后把x1与xi依次交换,计算xi与其他7个x的回归方程,得到的结果,x1/x2/x5/x7/x8(记不是很清了,没记录)等与其他回归效果很好,R2达到85%+。x8我最后算的结果如下:

Dependent Variable: X8                                
Method: Least Squares                                
Date: 11/18/10   Time: 16:36                                
Sample: 2006M01 2010M05                                
Included observations: 53                                
                                
Variable        Coefficient        Std. Error        t-Statistic        Prob.  
                                
X1        0.333916        0.061008        5.473314        0.0000
X2        -1.882419        0.426346        -4.415240        0.0001
X3        -0.859759        0.305694        -2.812481        0.0072
X4        0.590806        0.231743        2.549395        0.0142
X5        0.732510        0.575280        1.273310        0.2093
X6        2.651515        0.314437        8.432574        0.0000
X7        -0.539266        0.301462        -1.788832        0.0802
                                
R-squared        0.893827            Mean dependent var                102.8642
Adjusted R-squared        0.879978            S.D. dependent var                3.944816
S.E. of regression        1.366649            Akaike info criterion                3.585101
Sum squared resid        85.91558            Schwarz criterion                3.845329
Log likelihood        -88.00518            Hannan-Quinn criter.                3.685172
Durbin-Watson stat        0.703966                        
这足够说明x8已经与其他x存在共线性了吧。而你的共线性检验方法都有点死板教条,我这是通过多重共线性的定义上来的。

我采用的数据是你提供的噢。        
所以我的观点是,很可能是共线性导致的原因,而不是你们所说的每年的权重调整导致的结果出现问题。

每年的微调绝对不会导致算出有7%的误差来。按照你的回归公式,回归结果理想状态下是常数项为零,各系数和为1才ok。
在存在共线性(当然按照我的回归方程结果,说明共线性存在但没达到明显改变权重的效果)情况下,你的这两个硬约束想通过回归结果来说明很难。我的计算是基于一个硬约束即常系数为0前提的,从结果看第二个硬约束也算满足的比较好。

14
addreamer 在职认证  发表于 2010-11-18 17:31:37
我主要是想从统计技术层面和大可水米讨论方法问题哈,绝对没有刁难的意思。
另外,我也明白,即使证明了从八个分类cpi中找不到CPI计算中存在人为的调整,但这也不能说明CPI就是正确的,就真实反映了物价。到底CPI统计制度改进方面,不是很了解,我也提不出什么有价值的参考意见。我最关心的,不是菜价到底涨了多少,一个月买菜才花多少钱呀,房价一按揭,刚发的工资都没了。先搞清楚房价再说吧,房价可算是相对单一的商品了吧。
《统计数据和主观感受:风动还是幡动》一文中的观点明确,但是计算方法有漏洞,不能支持观点。但不能说明观点错误哈。只不过大可水米自以为抓住了统计局的小辫子,结果证明没抓住,很可惜,但也只能说明统计局也许没有小辫子;也许有,但隐藏的没那么浅。

15
大可水米 发表于 2010-11-18 22:33:20
楼上,再回应一下
(回应之前我复习了一下多重共线性的诊断有以下几种方法)
1. R2值高而T值相对较小
2. 解释变量间有高度的两两相关
3. 检查偏相关
4. 辅助回归
5. Klein经验法则
6. Eigenvalues(本征值)和 condition index
7. 容许度tolerance

我前面提到的是1,2,5(我承认原文做回归时候,也是根据第1条,所以没有对多重共线性产生担忧)。
而你说的:计算xi与其他7个x的回归方程,就属于上面第4种方法。

不过,我查阅了一些教材(基础不好,所以只好教条一下),比如古扎拉蒂对这七种方法的评价,都是有其局限性的。
比如对第4种方法就提到:“不幸的是,如果遇上几个复杂的线性相关,做这种曲线拟合的练习就不一定有多少价值;要辨别各个不同的交互关系仍然是困难的”。(当然,我觉得如果只有两个解释变量,那输助回归也是完全有效的,但在多个变量的时候,不好说——看一下Gujarati使用巴伦坦图对多重共线性性质的说明,即知)。

其他那些方法(例如我用的那三个常用的简易的诊断方法),也都有一些缺陷。
这些方法并没有好坏之分,而都属于“经验法则,不可把这个经验法则当作法定的规则来运用。”

所以,尽管你的检验让我对原来的判断感到怀疑,但仍然难以让我确信。

16
addreamer 在职认证  发表于 2010-11-18 23:25:02
我根本就没有这么深厚的知识哈,你说的n多方法我听都没有听过。“不幸的是,如果遇上几个复杂的线性相关,做这种曲线拟合的练习就不一定有多少价值;要辨别各个不同的交互关系仍然是困难的”。这句话是英文直接翻译的吧?读着很拗口。这句话的背景是什么?曲线拟合的练习是指的什么?我们做的这里只有线性回归,算是直线拟合,没有曲线。

我想说的是,“经验法则”指的是当出现所预想的情况特征时,很可能存在某种假设现实。而如果能用其他自变量来解释某一个自变量(不管是有意义的数据反映上或者仅仅是在样本数据的表现上),那么存在多重共线性是一定的。说明如下:

如果x8可以表示为x8=g(x1,...x7)。其中g(X-{x8})是线性回归函数。假设已经知道CPI=f(X),f(X)也是线性回归函数。那么我们就可以把f(X)中的x8分解成a*x8+b*x8,(其中a+b=1,a,b为实数)再把x8=g(x1,...x7)代入f(X)中的a*x8;而b*x8的部分保留在f(X)中,这样我们会得到新的与f(X)相等价的u(X)——线性函数的组合仍然为线性函数。他们的回归效果相同,但是函数表达式即各项的的系数不同。a、b可取的值是无穷的。极限情况下,a=0,b=1,u(X)与f(x)相同;b=0,a=1,u(X)中x8项系数为0,即u(X)=u(X-{x0}).

这就是我理解的共线性。不知道和你理解的是不是相同。在存在共线性的情况下,回归方程能够得到一个解集或者叫解空间,里面的每一个解,都是由一组[a,b]决定的。但是由于随机项的存在,上面的等号应该是约等号,用最小二乘来估计,会得到在解空间中残差平方和最小的那一个解,而那个解在现实中并不一定有意义。这就是为什么要消除多重共线性的原因。

当然,如果xi=g(X-{xi})这个函数关系在回归样本之外(既预测样本中)仍然存在的话,用哪一个u(X)也可以进行预测。这就是多重共线性虽然没有实际意义,只要方差没有变大趋势,仍可以进行预测计算的原因。

17
大可水米 发表于 2010-11-19 18:34:55
我看了一下,你前面说的21个月,或者包括我做过的12个月滚动回归,确实存在多重共线性(严重)。
不过说明一下,我原来的想法是:只要样本点严格落在一条直线上(CPI严格按照不变权重估计),那么估计结果应该也是完全准确的。但是我没有想到的是:即使CPI严格按不变权重估计,但是因为统计局公布指数只到小数点之后一位,比如:104.4,这种很小的误差,实际上会产生严重的问题,并以多重共线性的方式表现出来(实质是公布数据的误差)。

但是在样本数量比较大,从而变异也范围也比较大的时候,因为误差而导致的问题就会有所缓解,从估计结果上来看,53个样本的估计结果还是相当理想的。包括楼上你曾经提到“sum=0.999724264988990约等于1。我个人感觉这个数据可以接受,而我并没有使用权重和等于1这个前提,sum=0.9997算是结果后验了权重和=1的存在,反过来证明了结果的正确性。并且与htt大概权重:食品34%,日用品5%,衣着9%,家庭设备及维修4%,医疗保健11%,交通通信9%,娱乐教育文化15%,居住14%虽有一定差距,但也很接近,说明数据存在一定的可信度”。

我也认为你的方法说明了多重共线性确实在一定程度上存在(多多少少总是有的),而且如前所述,在12个月,21个月的回归中比较严重。但是在53个月已经相当微弱了(这方面的证据,恰是你在第1楼的,一个不带截距项的回归,结果如你所说非常理想。)

我觉得thunders的例子还是很有说服力的,你仔细看看她的例子:数据还是这些数据(如果有多重共线性的话,还是有吧);但如果53个月间的权重确实保持常数,则估计结果还是完全准确(能够精确还原真实权重的);而另外一方面,她给出的模拟情况表明,即使年度权重是微调,也会引起截距项估计的较大误差。可见,在53个样本的估计中,多重共线性对结果的误导并不是决定性,既不必要也不充分(不充分的例子:如果权重在53个月保持为不变常数,则估计结果能够完全准确的还原真相;不必要的例子:权重的变化同样能够解释估计结果的偏差)。

最后,很重要的一点,也颠覆性的,就是我们还需要对统计规则本身多加了解(我原先了解不够):
全国CPI指数并不是按8个分类加权得到的!
而是按照城镇、农村两个CPI指数加权得到的,而城镇和农村的CPI指数才是基于8类权重的。
目前,我对上面这些步骤均进行了检验,发现都是没有问题的。
(隐含的一个疑问是:第一个方案:直接按8类权重加权,第二个方案,先按8类加权分别得到城市和农村的CPI,然后再按城市和农村的消费占比加权得到全国CPI;第一个方案和第二个方案是否等价?或者说,实际上用第二个方案编制的,能不能用第一个方案的理解进行估算?我写了一下公式,发现是不行的。因为农村和城市的CPI指数不同,各项分类权重也不同,是无法合并提取的,所以这才是最大的问题。不过,为什么我们的回归结果还可以?因为,城市和农村的CPI变化还是比较相似的,所以使用第一个方案的理解方式进行回归,也有看起来还可以的结果,但是肯定会由此带来估算的误差。)


我会把现有的讨论总结回顾一下,再放上来供大家批评。

18
addreamer 在职认证  发表于 2010-11-19 22:48:01
17# 大可水米 我建议你每12个月做一次无常数项的回归,连续做几年的数据,比较一下他们的权重系数结果的变化情况,如果变化很小,且权重和保持在1左右。这说明这种回归效果一直是较好的而且比较稳定的。小样本下可能比较难,但也可以用类似我得到的整体数据的无常数项结果的拟合函数后验各个时间段的残差变化情况,如果误差一直保持在很低的水平也算说得过去。
正是由于存在共线性,样本的不同导致了含有截距项的回归方程的解在解空间里发生了随意的跳动(如果回归结果随着样本的变化而变化很大,而回归效果仍然一直保持很好,这也是说明多重共线性的经验之一,因为不仅仅是在这里的cpi上,在很多存在多重共线性情况下都是这样),我认为这才是引起不同样本下截距项波动很大的原因。

CPI是这样产生的呀,我一点也不了解。我一直以为就是一个简单的cpi,没想到这么复杂。看来隔行如隔山,想找统计局的问题还必须得专业间谍说才能一语中的,言之有据。

19
大可水米 发表于 2010-11-20 00:08:23
楼上,12个月的滚动回归,有常数项和无常数项的都做过,结果都非常不好。
是表现为多重共线性的症状,但也可能是因为样本太小所导致。
根据权重一年一调的假设,总能找到12个月内权重为常数的时期,但拟合效果仍然不好,可以说另有原因,我跟thunders讨论之后发现,原来是因为公布数据的误差导致(一般只公布到小数位后一点,例如4.4%),而12个月的时候, (X'X)-1X'Y当中, (X'X)的行列式值极其小,小到10的-41次方量级(2006年12个月),所以,这时候微波的公布误差,都会导致估计结果的巨大波动。而我之前把这个当作确切数了。

四、附 录
调查方案说明1.居民消费价格指数调查方案
(四)全国指数的计算
1.全国城市(农村)指数的计算
全国城市(农村)指数根据各省(区、市)指数按各地居民消费支出金额加权平均计算。
2.全国指数的计算
全国指数根据全国城市和农村指数按城乡居民消费支出金额加权平均计算。


我奇怪为什么统计局官方(庞文)不在第一时间指出我原文的这一错误。
(因为如前所这,直接按8类估计和按城市、农村估计,并不是等价的)

20
addreamer 在职认证  发表于 2010-11-20 18:50:57
19# 大可水米 哈哈这说明统计局那个家伙自己也不是很懂哈! 我感觉现在咱们的观点并没有多大的差异性了。我和你一直讨论的是一直是反对你说是统计权重的频繁调整导致了结果的异常。而我的观点是共线性。你上面提到的公布数据的误差,只保留到小数点后1位,这个我最先阐述我的观点的时候也提到了。当然这也可能是导致共线性的原因之一。X'X的行列式值极其小与共线性是一致的。多重共线性在线性代数里面就表现为方程系数矩阵的秩小于参数个数,即X‘X行列式等于0。这时候方程的解不唯一,表现为解集。终于把知识都串起来了,呵呵

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-19 00:49