回归(Regression)最早由高尔顿(1886)提出,他发现,子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和,即身高具有均值回归的倾向。这个均值本质上是条件均值(给定父辈和种群平均身高,子代身高的均值),经典回归模型事实上就是在估计条件均值。
在经典回归模型中,我们希望用解释变量(regressand)X的函数g(X)来预测被解释变量(regressor)Y。此时需要一个标准来测度g(X)与Y的接近程度,均方误(mean squared error, MSE)准则最常被使用,MSE是预测误差(预测值g(X)与目标Y之差)的平方的期望,表达式如下
MSE(g)=E[Y−g(X)]2=∫∫[y−g(x)]2fXY(x,y)dxdy
其中,fXY(x,y)是变量X和Y的联合概率分布。
显然,MSE越小,g(X)对Y的预测能力越强。因此现在的问题转换为,求解使MSE最小的函数g(⋅),注意到MSE是函数g(⋅)的函数。
事实上,条件均值E(Y∣X)就是使MSE最小的函数g0(X),可以用求微分和方差分解两种方法证明(证明见文末附录)。
需要注意的是,条件均值E(Y∣X)是X而非Y的函数,例如在高尔顿的例子中,子代身高的条件均值,取决于父辈和种群的平均身高,也即父辈和种群的平均身高的函数。
MSE是衡量g(X)对Y的预测能力的准则之一,但非唯一准则。例如,平均绝对误差(mean absolute error, MAE),
MAE(g)=E∣Y−g(X)∣
此时,使MAE最小的函数g(X)是条件中位数,分位数回归采用的正是该准则。
相比MAE,MSE具有连续可导的优良性质。
此外,令Y=E(Y∣X)+ε,其中ε被称为回归扰动项,则有
E(ε∣X)=E{[Y−E(Y∣X)]∣X}=E(Y∣X)−E[go(X)∣X]=E(Y∣X)−go(X)=0
E(ε∣X)=0意味着ε不包含可用于预测Y的期望值的任何有关X的信息。换句话说,可用于预测Y的所有X的信息被包含在E(Y∣X)中。
在很多经济问题中,一阶条件矩即条件均值也是关注的焦点。
基于以上诸多原因,回归等式被设定为Y=E(Y∣X)+ε,经典回归模型就是在估计E(Y∣X)。常用的建模方法就是将E(Y∣X)设定为某种有已知的函数形式,但包含少数未知参数,然后估计未知参数即可。
例如,线性回归模型假定
E(Y∣X)=β0+j=1∑kβjXj,βj∈R
又如,Logistic回归模型假定
E(Y∣X)=1+exp(−β0−∑j=1kβjXj)1
最终经典回归问题被转换为熟悉的参数估计。
参考文献
[1] Francis, Galton. Regression Towards Mediocrity in Hereditary Stature[J]. The Journal of the Anthropological Institute of Great Britain and Ireland, 1886.
[2] Hong Y. Advanced Econometrics, Higher Education Press, 2011:18-28.
附录
引理:重复期望法则(Law of Iterated Expectations, LIE),对给定可测函数G(X,Y),假设期望E[G(X,Y)]存在,则
E[G(X,Y)]=E{E[G(X,Y)∣X]}
证明:仅考虑(Y,X′)′是连续随机向量的情形,有
E[G(X,Y)]=∬−∞∞G(x,y)fXY(x,y)dxdy=∬−∞∞G(x,y)fY∣X(y∣x)fX(x)dxdy=∫[∫−∞∞G(x,y)fY∣X(y∣x)dy]fX(x)dx=∫E[G(X,Y)∣X=x]fX(x)dx=E{E[G(X,Y)∣X]}
定理:条件均值E(Y∣X)是下列问题的最优解
E(Y∣X)=argg∈FminMSE(g)=argg∈FminE[Y−g(X)]2
其中F是所有可测和平方可积函数的集合,即
F={g:Rk+1→R∣∫g2(x)fX(x)dx<∞}
法一:方差分解
令g0(X)=E(Y∣X),则
MSE(g)=E[Y−g0(X)+g0(X)−g(X)]2=E[Y−g0(X)]2+E[g0(X)−g(X)]2+2E{[Y−g0(X)][g0(X)−g(X)]}
根据重复期望法则
E{[Y−g0(X)][g0(X)−g(X)]}=E{E([Y−g0(X)][g0(X)−g(X)]∣X)}=E{[g0(X)−g(X)]E([Y−g0(X)]∣X)}=E{[g0(X)−g(X)][E(Y∣X)−g0(X)]}=E{[g0(X)−g(X)]⋅0}=0
⟹MSE(g)=E[Y−g0(X)]2+E[g0(X)−g(X)]2
⟹argg∈FminMSE(g)=g0(X)=E(Y∣X)
法二:求微分法
MSE(g)=E[Y−g(X)]2=∫∫[y−g(x)]2fXY(x,y)dxdy
根据一阶条件,MSE对g(X)的导数为0
δg(x)δMSE(g)=−2∫[y−g(x)]fXY(x,y)dy=0
⟹∫g(x)fXY(x,y)dy=∫yfXY(x,y)dy
⟹g(x)∫fXY(x,y)dy=∫yfXY(x,y)dy
⟹g(x)fX(x)=∫yfXY(x,y)dy
⟹g(x)=∫yfX(x)fXY(x,y)dy
⟹g(x)=∫yfY∣X(y∣x)dy=E(Y∣X)
以上是本篇的全部内容,欢迎关注我的知乎|简书|CSDN|微信公众号PurePlay
, 会不定期分享量化金融与R干货。