那我先来说说我对这个R2的理解吧:
R2是什么?它就是可决系数(coefficient of determination),也被称为拟合优度。说到拟合优度一般理解为回归直线与观测值的一个拟合程度,请看图:
而现实情况肯定没有这样的。就比如你的努力程度和历次考试成绩,虽然越努力成绩越好,但是你不能保证自己没有失误啊。这个失误就是残差,但是失误肯定不是主要部分,所以R2还是很大的。
R2没有很明确的界限,说什么就是好什么就是不好,有的时候时间序列的拟合程度都不是很好,甚至只有0.3到0.4,所以要综合来看,没有很确定的界限。例如,考虑这样一个例子。在冬季的几个月里,人们经常通过燃油取暖,因为取暖用的燃油在冬季的销售额比在夏天的销售额要高。同样,滑雪设备的销售额在冬季也比夏天要高。事实上,如果我们打算运行一个以滑雪设备的销售额作为自变量x以及取暖用的燃油的销售额作为因变量y的回归模型,那么产生的模型将是很好的模型,并具有很高的R2数值。不过,我们知道滑雪设备的销售额并没有造成人们购买更多的家用取暖的燃油。
当然还有其他情况,比如当回归直线是平行于x轴,并且与原始数据的散点图拟合度也非常高,但R2=0.说明一个低的R2数值,并不一定意味着回归模型缺乏可信度。(极端举例)又或者,一个高的R2数值但原始数据的散点图表明因变量y的观测值用一条曲线拟合比用一条直线拟合的效果可能会更好。(这是我们也会考虑参考其他拟合指标,比如AIC准则……)
so,楼主觉得R2数值有时会给出有关线性回归模型对数据拟合程度好的误导信息。一般说来,较高的R2数值比较低的R2数值要好。接受回归模型足够好的R2数值的决定因素主要取决于这个模型的应用目的以及经验和良好的管理知识。
在扩展一下,拟合优度检验和F检验有区别吗?
还是有区别的,拟合优度是指这个模型对于数据来说,解释变量能够解释被解释变量的程度,F说明的是整个模型中所有的解释变量的显著程度,和T值是对应的。
在问,那R2与R的关系呢?
撇开平方不说,R指的是线性相关系数,也就是说因变量和自变量之间的线性相关程度(注意强调的是线性!),如果两者关系很大,那么自然用他们做出的模型当然比较好用自变量解释因变量。(当然这又要引申出多重共线的问题了……这就不深究了)
楼主也希望听听大家的见解,特别是看到知乎上的那位学计量的高票答案,有些确实说的有道理,但可能作为学统计的我,确实有些地方也不太能完全赞同吧,不知大家怎样觉得?