楼主: runman
48098 28

[回归分析求助] 关于回归模型中是否需要加入截距项的问题 [推广有奖]

11
夏目贵志 发表于 2015-12-15 12:02:00
关于这个标准化的问题,这里有个不错的文章可以供你参考。http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

12
夏目贵志 发表于 2015-12-15 12:06:35
关于上面的例子我多说两句。你看下面这个结果,
  1. . reg price weight turn

  2.       Source |       SS           df       MS      Number of obs   =        74
  3. -------------+----------------------------------   F(2, 71)        =     21.54
  4.        Model |   239799649         2   119899825   Prob > F        =    0.0000
  5.     Residual |   395265747        71  5567123.19   R-squared       =    0.3776
  6. -------------+----------------------------------   Adj R-squared   =    0.3601
  7.        Total |   635065396        73  8699525.97   Root MSE        =    2359.5

  8. ------------------------------------------------------------------------------
  9.        price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
  10. -------------+----------------------------------------------------------------
  11.       weight |   3.914597   .6905142     5.67   0.000     2.537751    5.291444
  12.         turn |  -385.3904   121.9868    -3.16   0.002    -628.6252   -142.1556
  13.        _cons |   9625.498   3243.744     2.97   0.004     3157.656    16093.34
  14. ------------------------------------------------------------------------------
  15. r; t=0.03 23:03:45

  16. . reg price weight turn, noconst

  17.       Source |       SS           df       MS      Number of obs   =        74
  18. -------------+----------------------------------   F(2, 72)        =    243.37
  19.        Model |  3.0035e+09         2  1.5018e+09   Prob > F        =    0.0000
  20.     Residual |   444286967        72  6170652.32   R-squared       =    0.8711
  21. -------------+----------------------------------   Adj R-squared   =    0.8676
  22.        Total |  3.4478e+09        74  46592355.7   Root MSE        =    2484.1

  23. ------------------------------------------------------------------------------
  24.        price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
  25. -------------+----------------------------------------------------------------
  26.       weight |   2.611969   .5611657     4.65   0.000     1.493305    3.730632
  27.         turn |   -45.1541   43.84479    -1.03   0.307    -132.5571    42.24889
  28. ------------------------------------------------------------------------------
  29. r; t=0.01 23:03:47

  30. . reg std_price std_weight std_turn, noconst

  31.       Source |       SS           df       MS      Number of obs   =        74
  32. -------------+----------------------------------   F(2, 72)        =     21.84
  33.        Model |  27.5646798         2  13.7823399   Prob > F        =    0.0000
  34.     Residual |  45.4353206        72  .631046119   R-squared       =    0.3776
  35. -------------+----------------------------------   Adj R-squared   =    0.3603
  36.        Total |  73.0000004        74  .986486492   Root MSE        =    .79438

  37. ------------------------------------------------------------------------------
  38.    std_price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
  39. -------------+----------------------------------------------------------------
  40.   std_weight |   1.031498   .1806828     5.71   0.000     .6713136    1.391683
  41.     std_turn |  -.5748334   .1806828    -3.18   0.002    -.9350181   -.2146488
  42. ------------------------------------------------------------------------------
  43. r; t=0.03 23:03:48
复制代码

使用没有经过标准化的数据时,有常数项的时候turn变量显著,而没有常数项的时候turn不显著。这个和你遇到的问题其实很相似。怎么样判断到底要不要包括turn呢?方法之一就是把数据标准化之后再回归。你看,标准化之后,无论是否加入常数项,turn都是显著的,对吧?

13
runman 发表于 2015-12-15 14:44:34
夏目贵志 发表于 2015-12-15 12:06
关于上面的例子我多说两句。你看下面这个结果,

使用没有经过标准化的数据时,有常数项的时候turn变量显 ...
非常感谢提供这么多信息

我先把那篇文章看一下

标准化处理一下数据 回归试试

14
runman 发表于 2015-12-16 21:18:35
夏目贵志 发表于 2015-12-15 12:06
关于上面的例子我多说两句。你看下面这个结果,

使用没有经过标准化的数据时,有常数项的时候turn变量显 ...
非常感谢你那么热心的帮助

数据标准化后,再进行含常数项的回归

其中一个实证模型效果比较好,其余的模型效果还是不太好,这些模型的各个层面的控制变量和解释变量都是完全一样的,无非是有的引入了交叉项,有的更换了被解释变量。

但我觉得实际情况可能就是如此,以此为突破口展开分析,并对回归效果好模型尝试多种方式的稳健性检验,如果顺利的话,应该是能把问题说明清楚的。

15
夏目贵志 发表于 2015-12-17 00:23:54
runman 发表于 2015-12-16 21:18
非常感谢你那么热心的帮助

数据标准化后,再进行含常数项的回归
很高兴能帮助到你!欢迎以后继续支持论坛!

16
lyqbytlqsy 发表于 2016-6-11 16:46:34

RE: 关于回归模型中是否需要加入截距项的问题

我也遇到了一样的问题,你最后是怎么解决的呢

17
吕小布韦 发表于 2016-6-21 01:34:35
回归不加截距项,是在不加截距项十分合理,并且自变量因变量可以成正比的情况下才不加。比如小树高度和年的关系。做出模型来可能带截距项,但是可以不加,因为可以把时间=0的时候将高度定义为0.

其他一些情况则不太合适,比如你的研究结果,很明显截距项是十分重要的,如果不加截距项,相当于让回归方程强行过(0,0)点,也就是相当于引入了一个离群点。正是这个点把结论拉到了你所说的位置。所以应该是要加上。我只以简单的线性模型做例子,可能你的模型更复杂,但道理应该是一样的。至于不加更合常理,加了没有显著性这个现象,我想只能是就事论事,这么泛泛的说我也说不出个所以然来。

18
runman 发表于 2016-6-21 09:37:38
lyqbytlqsy 发表于 2016-6-11 16:46
我也遇到了一样的问题,你最后是怎么解决的呢
尽量使得各个变量之间的量纲相近,比如非常非常大的数据,单位可以换算成为 万元,百万,千万,甚至亿。

不得以时,可以考虑标准化~

19
runman 发表于 2016-6-21 09:39:56
吕小布韦 发表于 2016-6-21 01:34
回归不加截距项,是在不加截距项十分合理,并且自变量因变量可以成正比的情况下才不加。比如小树高度和年的 ...
非常感谢那么仔细的回复。

很有道理。

最后还是觉得加截距项更合理。

20
runman 发表于 2016-6-21 09:39:56
吕小布韦 发表于 2016-6-21 01:34
回归不加截距项,是在不加截距项十分合理,并且自变量因变量可以成正比的情况下才不加。比如小树高度和年的 ...
非常感谢那么仔细的回复。

很有道理。

最后还是觉得加截距项更合理。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-31 17:50