楼主: dinguangx
3035 15

[原创博文] 利用回归模型给房屋定价 [推广有奖]

11
dinguangx 发表于 2013-1-14 21:38:32
柳如清风 发表于 2013-1-14 13:59
数据样本太少了,缺少统计意义,而且结果中的p值比较大
谢谢提醒,截距的Pr值已经大于0.15了。去掉截距后,重新分析了一下,结果如下: noint.png

系数仍然是负的,可能还是没有建立好模型。

12
wxy_1988 发表于 2013-1-15 13:34:07
很多时候不能只看数据。数据时实际现象的数字化表象,那脱离了实际的背景,数字也没什么意义的。
比如lz说的这个问题:
房子这么大,还有占地面积,应该是外国的别墅式住宅。这情况就和中国的不太一样了,中国的楼房如果地段相同的话,肯定是房子越大越值钱。但外国的这种别墅是不是居民所享受的效用除了由房屋大小带来外,还有周围可以活动的空间呢?什么在后院有个游泳池,周末在自家院子里来个聚会,搞个BBQ什么的。所以主要承担房价的会不会是房屋面积和除房屋面积后的占地面积呢?
我就又建了个交叉指标x6=(占地面积-房屋面积)*房屋面积,把所有的东西再都带进去做循环,结果为:
  

变量

  
  

参数

  
  

标准

  

II 型 SS


F


Pr > F


  

估计值

  
  

误差

  
  

Intercept

  
  

146041

  
  

20855

  
  

2.9152E+10

  
  

49.04

  
  

0.0009

  
  

x6

  
  

0.00289

  
  

0.00069485

  
  

1.0311E+10

  
  

17.34

  
  

0.0088

  

预测结果:

房子面积(平方英尺)


交叉指标


占地的大小


卧室


花岗岩


卫生间有无重装?


销售价格


预测价格


  

1

  

                2,397


    28,186,323


        14,156


4


1


0


$189,900


$227,499


  

2

  

                2,200


    16,280,000


         9,600


4


0


1


$195,000


$193,090


  

3

  

                 4,032


    24,667,776


        10,150


5


0


1


$197,900


$217,331


  

4

  

                3,529


    19,981,198


         9,191


6


0


0


$205,000


$203,787


  

5

  

                3,247


    22,125,058


        10,061


5


1


1


$224,900


$209,982


  

6

  

                2,983


    19,037,506


         9,365


5


0


1


$230,000


$201,059


  

7

  

                3,536


    58,195,488


        19,994


6


1


1


$325,000


$314,226










  

??

  

                3,198


    20,694,258


         9,669


5


1


1


??


$205,847



结果显示房子大、院子也大,卖得越贵。所以觉得实际背景很重要,先要让数据尽可能准确的描述实际情况。

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
2015 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

13
柳如清风 发表于 2013-1-15 14:45:11
不记得像x4、x5这样的哑变量在逐步回归中能不能和一般变量一起分析,他们是否会对最终结论产生影响。。。

14
zhentao 发表于 2013-1-16 10:02:20
呵呵,有意思。仁者见仁,智者见智。

15
Aharach 发表于 2013-1-17 10:50:52
SAS所能提供的只是模型过程,在变量选择,拟合程度上,还是需要人为参与的。
(1)数据因素:SAS不会考虑数据是否充分。这个例子中,只有7个观测数据。我们一般说,对模型中的每一个变量,至少需要10组数据去进行拟合。
(2)变量选择:比如说,这里的Stepwise方法,已经有人提出,建模过程中使用stepwise是有可能导致模型出现很夸张的结果。在模型选择阶段,还是需要建模人员手动添加变量。这样一是能随时了解拟合信息,同时能对模型进行相应的调整。
(3)模型验证:模型的建立之后,是需要验证的。通常,建模时,会把原始数据2-8分,80%用于建模,另外20%用于模型验证。如果验证不合格,模型是需要相应修改的。

建模从来不知那么简单的事情,也不是几行SAS代码就能搞定的问题。不然,我们都要失业了,对么? :)
已有 1 人评分学术水平 收起 理由
2015 + 1 精彩帖子

总评分: 学术水平 + 1   查看全部评分

16
liu5355776 发表于 2014-3-1 11:11:01
thanks

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 21:52