事情是这样的:有一个房主,他想把自己的房子给卖掉,但是不知道该标怎样的一个价格才合适。但是他很聪明,可能还有点数据预测的经验,所以就找到房屋中介,看了一下附近的房子都是怎么定价的。很明显的是,房屋中介有很多附近的房屋信息和出售价格,并且告诉这个房主房子的价格是跟房子的房屋面积、占地大小、卧室数量、厨房是不是花岗岩的、以及卫生间是否重装等等因素有关系的,并且给了他一份附近房屋的相关资料。然后这个房主听了中介的话,回去把自家房屋的这些信息也给整理了一下,最终形成了下面的表格(很明显这不是我国的房子,我们能有个2室,90平方就知足了,哪敢要这么大的房子):(数据来源:http://www.ibm.com/developerworks/cn/opensource/os-weka1/)
表 1. 回归模型的房屋值
| 房子面积(平方英尺) | 占地的大小 | 卧室 | 花岗岩 | 卫生间有无重装? | 销售价格 |
| 3529 | 9191 | 6 | 0 | 0 | $205,000 |
| 3247 | 10061 | 5 | 1 | 1 | $224,900 |
| 4032 | 10150 | 5 | 0 | 1 | $197,900 |
| 2397 | 14156 | 4 | 1 | 0 | $189,900 |
| 2200 | 9600 | 4 | 0 | 1` | $195,000 |
| 3536 | 19994 | 6 | 1 | 1 | $325,000 |
| 2983 | 9365 | 5 | 0 | 1 | $230,000 |
| 3198 | 9669 | 5 | 1 | 1 | ???? |
这个房主拿到这份数据之后,就开始打开SAS对这份数据进行回归分析了,代码很简单:
- libname sas 'd:/workspace/workspace_sas';
- data sas.task10_03;
- input x1-x5 y @@;
- cards;
- 3529 9191 6 0 0 205000
- 3247 10061 5 1 1 224900
- 4032 10150 5 0 1 197900
- 2397 14156 4 1 0 189900
- 2200 9600 4 0 1 195000
- 3536 19994 6 1 1 325000
- 2983 9365 5 0 1 230000
- ;
- proc stepwise;
- model y = x1-x5;
- run;
- quit;
就是对5个变量进行逐步回归,看看它们跟最终的定价是否有相应的关系 。主要是来看SAS的运行结果:
SAS这工具,别的没啥,就是输出结果多,要慢慢看,逐步分析:
1. 逐步分析的第一步,引入对结果影响较大的x2,即占地大小,其Pr值为0.0362<0.05,不剔除。2. 第2步,引入变量x3,即卧室数量,其Pr=0.1269<0.15,不剔除,此时变量x2的Pr=0.0462,继续保留。3. 第3步,引入变量x5,即卫生间有无重装,其Pr=0.0790<0.15,不剔除;此时变量x2和x3的Pr值分别为0.0214和0.0561,继续保留。4. 第4步, 引入变量x1,即房子的面积,其Pr=0.0960<0.15,不剔除;此时变量x2、x3、x5的Pr值分别为0.0171、0.0275、0.0299,均小于0.15,继续保留。
至此,结果分析完了,房主得到了一个回归方程:y=-21661-26.68824x1+7.05512x2+43166x3+43392x5。
然后算了一下自己的房价,-21661-26.68824*3198+7.05512*9669+43166*5+43392*1=220427。 大约值22万美刀!
结果是分析完了,可是房主却郁郁寡欢了,本来以为房子面积越大越值钱呢,最终的结果却是面积越大,越不值钱(因为这里x1的系数是-26.68824 ,尼玛,居然负相关的);再看一下卧室的数量,卧室越多,越值钱。房主这样真心是凌乱了,正想着要不要把房子给砸掉一半,让房子面积小一些。同时再把原来30平方的卧室全给隔成10平方的卧室呢,不过这笔装修费还是要出的,元芳们,你们觉得这样干可以不?




雷达卡




京公网安备 11010802022788号







