楼主: WHAND
3317 2

[其他] 经典回归模型到底在干嘛? [推广有奖]

  • 0关注
  • 5粉丝

硕士生

98%

还不是VIP/贵宾

-

威望
0
论坛币
3570 个
通用积分
56.4010
学术水平
5 点
热心指数
5 点
信用等级
5 点
经验
2596 点
帖子
54
精华
0
在线时间
328 小时
注册时间
2017-9-13
最后登录
2024-4-11

楼主
WHAND 学生认证  发表于 2020-2-19 12:47:52 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

回归(Regression)最早由高尔顿(1886)提出,他发现,子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和,即身高具有均值回归的倾向。这个均值本质上是条件均值(给定父辈和种群平均身高,子代身高的均值),经典回归模型事实上就是在估计条件均值

在经典回归模型中,我们希望用解释变量(regressand)XX的函数g(X)g(X)来预测被解释变量(regressor)YY。此时需要一个标准来测度g(X)g(X)YY的接近程度,均方误(mean squared error, MSE)准则最常被使用,MSE是预测误差(预测值g(X)g(X)与目标YY之差)的平方的期望,表达式如下

MSE(g)=E[Yg(X)]2=[yg(x)]2fXY(x,y)dxdy \operatorname{MSE}(g)=E[Y-g(X)]^{2} = \int\int[y-g(x)]^2f_{XY}(x,y)\mathrm{d} x\mathrm{d} y

其中,fXY(x,y)f_{XY}(x,y)是变量XXYY的联合概率分布。

显然,MSE越小,g(X)g(X)YY的预测能力越强。因此现在的问题转换为,求解使MSE最小的函数g()g(·),注意到MSE是函数g()g(·)的函数。

事实上,条件均值E(YX)E(Y|X)就是使MSE最小的函数g0(X)g_0(X),可以用求微分和方差分解两种方法证明(证明见文末附录)。

需要注意的是,条件均值E(YX)E(Y|X)XX而非YY的函数,例如在高尔顿的例子中,子代身高的条件均值,取决于父辈和种群的平均身高,也即父辈和种群的平均身高的函数。

MSE是衡量g(X)g(X)YY的预测能力的准则之一,但非唯一准则。例如,平均绝对误差(mean absolute error, MAE),

MAE(g)=EYg(X) \operatorname{MAE}(g)=E|Y-g(X)|

此时,使MAE最小的函数g(X)g(X)是条件中位数,分位数回归采用的正是该准则。

相比MAE,MSE具有连续可导的优良性质。

此外,令Y=E(YX)+εY=E(Y | X)+\varepsilon,其中ε\varepsilon被称为回归扰动项,则有

E(εX)=E{[YE(YX)]X}=E(YX)E[go(X)X]=E(YX)go(X)=0 \begin{aligned} E(\varepsilon | X) &=E\{[Y-E(Y | X)] | X\} \\ &=E(Y | X)-E\left[g_{o}(X) | X\right] \\ &=E(Y | X)-g_{o}(X) \\ &=0 \end{aligned}

E(εX)=0E(\varepsilon|X) = 0意味着ε\varepsilon不包含可用于预测YY的期望值的任何有关XX的信息。换句话说,可用于预测YY的所有XX的信息被包含在E(YX)E(Y|X)

在很多经济问题中,一阶条件矩即条件均值也是关注的焦点。

基于以上诸多原因,回归等式被设定为Y=E(YX)+εY=E(Y | X)+\varepsilon,经典回归模型就是在估计E(YX)E(Y|X)。常用的建模方法就是将E(YX)E(Y|X)设定为某种有已知的函数形式,但包含少数未知参数,然后估计未知参数即可。

例如,线性回归模型假定

E(YX)=β0+j=1kβjXj,βjR E(Y|X)=\beta_{0}+\sum_{j=1}^{k} \beta_{j} X_{j}, \beta_{j} \in \mathbb{R}

又如,Logistic回归模型假定
E(YX)=11+exp(β0j=1kβjXj) E(Y|X)=\frac{1}{1+\exp (-\beta_{0}-\sum_{j=1}^{k} \beta_{j} X_{j})}

最终经典回归问题被转换为熟悉的参数估计。

参考文献

[1] Francis, Galton. Regression Towards Mediocrity in Hereditary Stature[J]. The Journal of the Anthropological Institute of Great Britain and Ireland, 1886.

[2] Hong Y. Advanced Econometrics, Higher Education Press, 2011:18-28.

附录

引理:重复期望法则(Law of Iterated Expectations, LIE),对给定可测函数G(X,Y)G(X,Y),假设期望E[G(X,Y)]E[G(X,Y)]存在,则

E[G(X,Y)]=E{E[G(X,Y)X]} E[G(X, Y)]=E\{E[G(X, Y) | X]\}

证明:仅考虑(Y,X)\left(Y,X^{\prime}\right)^{\prime}是连续随机向量的情形,有

E[G(X,Y)]=G(x,y)fXY(x,y)dxdy=G(x,y)fYX(yx)fX(x)dxdy=[G(x,y)fYX(yx)dy]fX(x)dx=E[G(X,Y)X=x]fX(x)dx=E{E[G(X,Y)X]} \begin{aligned} E[G(X, Y)] &=\iint_{-\infty}^{\infty} G(x, y) f_{X Y}(x, y) \mathrm{d} x \mathrm{d} y \\ &=\iint_{-\infty}^{\infty} G(x, y) f_{Y | X}(y | x) f_{X}(x) \mathrm{d} x \mathrm{d} y \\ &=\int\left[\int_{-\infty}^{\infty} G(x, y) f_{Y | X}(y | x) \mathrm{d} y\right] f_{X}(x) \mathrm{d} x \\ &=\int E[G(X, Y) | X=x] f_{X}(x) \mathrm{d} x \\ &=E\{E[G(X, Y) | X]\} \end{aligned}

定理:条件均值E(YX)E(Y|X)是下列问题的最优解

E(YX)=argmingFMSE(g)=argmingFE[Yg(X)]2 \begin{aligned} E(Y | X) &=\arg \min _{g \in \mathbb{F}} M S E(g) \\ &=\arg \min _{g \in \mathbb{F}} E[Y-g(X)]^{2} \end{aligned}

其中F\mathbb{F}是所有可测和平方可积函数的集合,即

F={g:Rk+1Rg2(x)fX(x)dx<} \mathbb{F}=\left\{g: \mathbb{R}^{k+1} \rightarrow \mathbb{R} | \int g^{2}(x) f_{X}(x) \mathrm{d} x<\infty\right\}

法一:方差分解

g0(X)=E(YX)g_{0}(X) = E(Y | X),则

MSE(g)=E[Yg0(X)+g0(X)g(X)]2=E[Yg0(X)]2+E[g0(X)g(X)]2+2E{[Yg0(X)][g0(X)g(X)]} \begin{aligned} \operatorname{MSE}(g) &=E\left[Y-g_{0}(X)+g_{0}(X)-g(X)\right]^{2} \\ &=E\left[Y-g_{0}(X)\right]^{2}+E\left[g_{0}(X)-g(X)\right]^{2}+2 E\left\{\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]\right\} \end{aligned}

根据重复期望法则

E{[Yg0(X)][g0(X)g(X)]}=E{E([Yg0(X)][g0(X)g(X)]X)}=E{[g0(X)g(X)]E([Yg0(X)]X)}=E{[g0(X)g(X)][E(YX)g0(X)]}=E{[g0(X)g(X)]0}=0 \begin{aligned} E\left\{\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]\right\} &=E\left\{E\left(\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]|X\right)\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right]E\left(\left[Y-g_{0}(X)\right]|X\right)\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right][E(Y|X)-g_{0}(X)]\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right]·0\right\} \\ &=0 \end{aligned}

    MSE(g)=E[Yg0(X)]2+E[g0(X)g(X)]2 \implies MSE(g) =E\left[Y-g_{0}(X)\right]^{2}+E\left[g_{0}(X)-g(X)\right]^{2}

    argmingFMSE(g)=g0(X)=E(YX) \implies \arg \min _{g \in \mathbb{F}} M S E(g) = g_0(X) = E(Y|X)

法二:求微分法

MSE(g)=E[Yg(X)]2=[yg(x)]2fXY(x,y)dxdy \operatorname{MSE}(g)=E[Y-g(X)]^{2} = \int\int[y-g(x)]^2f_{XY}(x,y)\mathrm{d} x\mathrm{d} y

根据一阶条件,MSE对g(X)g(X)的导数为0
δMSE(g)δg(x)=2[yg(x)]fXY(x,y)dy=0 \frac{\delta MSE(g)}{\delta g(x)}=-2\int[y-g(x)] f_{XY}(x,y) \mathrm{d} y=0

    g(x)fXY(x,y)dy=yfXY(x,y)dy \implies \int g(x)f_{XY}(x,y) \mathrm{d}y = \int yf_{XY}(x,y) \mathrm{d}y

    g(x)fXY(x,y)dy=yfXY(x,y)dy \implies g(x)\int f_{XY}(x,y) \mathrm{d}y = \int yf_{XY}(x,y) \mathrm{d}y

    g(x)fX(x)=yfXY(x,y)dy \implies g(x) f_X(x) = \int yf_{XY}(x,y) \mathrm{d}y

    g(x)=yfXY(x,y)fX(x)dy \implies g(x) = \int y\frac{f_{XY}(x,y)}{f_X(x)} \mathrm{d}y

    g(x)=yfYX(yx)dy=E(YX) \implies g(x) = \int yf_{Y|X}(y|x) \mathrm{d}y=E(Y|X)

以上是本篇的全部内容,欢迎关注我的知乎|简书|CSDN|微信公众号PurePlay , 会不定期分享量化金融与R干货。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


早起学习强国
沙发
tianwk 发表于 2020-2-20 00:43:31 |只看作者 |坛友微信交流群
Thanks for sharing

使用道具

藤椅
玄一无相 在职认证  学生认证  发表于 2022-4-4 18:37:24 |只看作者 |坛友微信交流群
学习

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 08:47