一元线性回归
1.一元线性回归模型
我们假设对于\[x\](在某一个区间内)的每一个值有\[Y = a + bx + \epsilon\],其中[LaTex]a,b[、LaTex]是确定的值,\[\epsilon\]是误差项,是一个随机变量,那么对于每一个观察到的\[x\],\[Y\]是一个随机变量,与\[\epsilon\]有关。通常情况下,我们不知道\[a,b\]确切的值,为此,我们需要事先对总体抽象观察,得到一组观察值[/LaTex](x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\[,来估计\]a,b[/LaTex]。
2. 模型假设
2.1较弱条件的假设
1. 线性于参数,在总体模型中,因变量\[y\]与自变量\[x\]和误差\[\epsilon\]的关系如下\[y = a+bx+\epsilon\].
2. 简单随机抽样,随机样本\[\{ (x_i,y_i),i=1,2,3,\cdots,n\}\]服从假设1中的方程,样本容量为\[n\]。
3. 解释变量有波动,即\[\sum\limits_{i=1}^{n}(x_i-\bar x)^2 \neq 0\]。
4. 零条件均值,给定解释变量的任何值,误差的期望值都为0,\[E(u|x)=0\]。
5. 同方差性,\[Var(u|x) = \sigma^2\]
2.2更严格的假设
1. \[\epsilon_i \sim N(0,\sigma^2)\]
2. \[\epsilon_i,\left(i = 1,2,3,\cdots,n\right)\]独立
注:上述的g更严格是为了确定\[\hat a,\hat b\]以及其他估计量的概率分布而做出的,如果不要求推导估计量的概率分布,仅需要假设\[E\left(\epsilon_i\right) = 0,Var\left(\epsilon_i\right) = \sigma^2\],也可以推导出\[\hat a,\hat b\]的估计值和期望和方差。
3. \[a,b\]的估计
取\[x\]的 [LaTex]n[LaTex]个不完全相同的值\[x_1,x_2,x_3,\cdots,x_n\]做独立实验,得到样本\[(x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\]。
3.1 极大似然估计
由独立性,得到极大似然函数
[LaTex]
L = \prod_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}}exp\left[-\frac{1}{2\sigma_2}\left(y_i-a-bx_i\right)^2\right] \\
= (\frac{1}{\sigma\sqrt{2\pi}})^nexp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-a-bx_i)^2\right]
[/LaTex]
要让\[L\]取到最大值,只要中括号内取到最小值,记
\[
Q(a,b) = \sum_{i=1}^{n}(y_i-a-bx_i)^2
\]
即让函数\[Q\]取到最小值,令\[Q\]关于\[a,b\]的偏导数为0
\[
\dfrac{\partial Q}{\partial a} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i) = 0 \\
\dfrac{\partial Q}{\partial b} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i)x_i = 0
\]
得到方程组
\[
\begin {cases}
na + (\sum\limits_{i=1}^{n}x_i)b = \sum\limits_{i=1}^{n}y_i\\
(\sum\limits_{i=1}^{n}x_i)a + (\sum\limits_{i=1}^{n}x_i^2)b = \sum\limits_{i=1}^{n}x_iy_i\\
\end{cases}\tag{1}
\]
由假设知系数行列式为\[n\sum\limits_{i=1}^{n}(x_i-\bar x)\neq0\],故方程组有唯一解
\[
\begin {cases}
\hat {b} = \dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}\\
\hat{a} = \bar{y}-\hat{b}\bar{x}
\end{cases}
\]
注:通常从方程组中直接解得不含\[\hat{b}\]的\[\hat{a}\]的表达式不使用,使用比较麻烦。
3.2最小二乘法(OLS)
最小二乘法即为让\[Y\]的观测值\[y_i\]与\[a+bx_i\]的偏差平方和最小,也就是函数\[Q(a,b)\]取到最小值,由此可知,在一元线性回归中最小二乘法得到的结果和极大似然法是一样的。但是在极大似然法的估计过程中先假设了正态性,而最小二乘法一开始并不要求正态性。
3.3经验回归方程
得到\[a,b\]的估计值\[\hat{a},\hat{b}\]后,称方程\[\hat{y} = \hat{a}+ \hat{b}x\]为经验回归方程。为了方便,记
\[
\begin{eqnarray}
&S_{xx}& = \sum_{i=1}^{n}(x_i-\bar{x})^2\\
&S_{xy}& = \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\
&S_{yy}& = \sum_{i=1}^{n}(y_i-\bar{y})^2\\
&\hat{\epsilon_i}& = y_i-\hat{a}-\hat{b}x_i
\end {eqnarray}
\]
其中\[\hat{\epsilon_i}\]为残差的估计值,应根据上下文区别残差和残差估计值,注意\[S_{xy},S_{yy}\]是随机变量而\[S_{xx}\]是常量。
4. 回归估计基本性质
由方程组(1)易得性质1,2
1. \[\sum(y_i-\hat{a}-\hat{b}x_i) = 0\],即\[\sum{\hat{\epsilon_i}}=0\]
2. \[\sum{x_i(y_i-\hat{a}-\hat{b}x_i)} = 0\],即\[\sum{x_i\hat{\epsilon_i}}=0\]
3. \[\bar{y} = \hat{a}+\hat{b}\bar{x}\],性质3可以有性质1移项两边同时除以\[n\]得到,即\[(\bar{x},\bar{y})\]在经验回归方程线上。
4. \[\bar{y_i} = \bar{\hat{y_i}}\]<br>性质4证明:<br>
\[
\begin{eqnarray}
y_i &=& \hat{y_i}+\hat{\epsilon_i}\\
\sum y_i &=& \sum \hat{a}+\hat{b}x_i + \hat{\epsilon_i}\\
\end{eqnarray}
\]
由性质1\[\sum{\hat{\epsilon_i}}=0\]:<br>
\[
\begin {eqnarray}
\sum y_i &=& \sum \hat{a}+\hat{b}x_i\\
\end {eqnarray}
\]
两边同时除以\[n\],即得到性质4.
5. \[Cov(\hat{y_i}, \hat{\epsilon_i})=0\]<br>性质5证明:
\[
Cov(\hat{y_i},\hat{\epsilon_i}) = E(\hat{y_i}\hat{\epsilon_i})-E(\hat{y_i})E(\hat\epsilon_i)
=E(\hat{y_i}\hat{\epsilon_i})\\
E(\hat{y_i}\hat{\epsilon_i}) = \frac{1}{n}\sum{(\hat{a}+\hat{b}x_i)\hat{\epsilon_i}}
=\frac{1}{n}(\hat{a}\sum{\hat{\epsilon_i}}+\hat{b}\sum\hat{\epsilon_i}x_i)=0
\]
最后一个等式利用了性质1和2。
6. 记
\[
\begin{eqnarray}
SST &=& \sum(y_i-\bar{y})^2\\
SSE &=& \sum(\hat{y_i}-\bar{y})^2\\
SSR &=& \sum\hat{\epsilon_i}^2
\end {eqnarray}
\]
其中SST表示总观测值的波动,SSE表示估计值的波动(注意到性质4,可以用估计值的平均值代替样本的平均值),SSR表示残差的总波动。
\[
\begin {eqnarray}
SST
&=& \sum(y_i-\bar{y})^2 \\
&=& \sum(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2\\
&=& \sum(y_i-\hat{y_i})^2-2(y_i-\hat{y_i})(\hat{y_i}-\bar{y})+(\hat{y_i}-\bar{y})^2\\
&=& SSR+SSE+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})\\
&=& SSR+SSE+2\sum{\hat{\epsilon_i}(\hat{y_i}-\bar{y})} \\
&=& SSR+SSE+2\sum \hat{\epsilon_i}\hat{y_i}-2\bar{y}\sum\hat{\epsilon_i}\\
&=& SSR+SSE
\end {eqnarray}
\]
最后一个等号应用了性质1和性质5。<br>定义\[R^2 =1-\dfrac{SSR}{SST} =\dfrac{SSE}{SST}\],表示回归变差占总变差的百分比,显然有\[R^2\]越大越好,也称\[R^2\]为拟合优度或者可决系数或者判定系数。
\[
R^2 = \dfrac{SSE}{SST} = \dfrac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}
\]
\[R^2\]也等于\[y_i\]和\[\hat{y_i}\]的相关系数的平方,证明如下:
[LaTex]
\begin {eqnarray}
Cov^2(y_i,\hat{y_i})
&=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{\hat{y}})^2}}}\right]^2\\
&=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}}\right]^2\\
&=& \dfrac{\left[\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})\right]^2}{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}
\end {eqnarray}
[/LaTex]
对分子展开得
\[
\begin{eqnarray}
\sum(y_i-\bar{y})(\hat{y_i}-\bar{y}) &=& \sum y_i\hat{y_i}-y_i\bar{y}-\hat{y_i}\bar{y}+\bar{y}^2\\
&=& \sum (\hat{y_i}+\hat{\epsilon_i})\hat{y_i}-\bar{y}\sum y_i - \bar{y}\sum\hat{y_i} + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 + \sum \hat{\epsilon_i}\hat{y_i} - n\bar{y}^2 - n\bar{y}^2 + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 -2n\bar{y}^2 + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 - \sum 2\bar{y}\hat{y_i} + \sum \bar{y}^2\\
&=& \sum (\hat{y_i}-\bar{y})^2
\end{eqnarray}
\]
将上述结果代回相关系数表达式中易得相关系数平方为拟合优度。分子展开过程中多次使用了性质1-5。
调整后的\[R^2\],
\[
R^2_{\text{Adj}}=1-\frac{SSR/(n-p-1)}{SST/(n-1)}=1-\frac{SSR}{SST}\frac{(n-1)}{(n-p-1)}=1-(1-R^2)\frac{n-p-1}{n-1}
\]
p是变量个数,考虑了自由度,SSR被(p+1)个方程约束,对于一元线性回归,p取1.