楼主: IntoDust
731 0

从零开始,一元线性回归(1) [推广有奖]

  • 0关注
  • 0粉丝

高中生

30%

还不是VIP/贵宾

-

威望
0
论坛币
4 个
通用积分
0.1500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
260 点
帖子
6
精华
0
在线时间
33 小时
注册时间
2018-10-26
最后登录
2023-1-30

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一元线性回归


1.一元线性回归模型
我们假设对于\[x\](在某一个区间内)的每一个值有\[Y = a + bx + \epsilon\],其中[LaTex]a,b[、LaTex]是确定的值,\[\epsilon\]是误差项,是一个随机变量,那么对于每一个观察到的\[x\],\[Y\]是一个随机变量,与\[\epsilon\]有关。通常情况下,我们不知道\[a,b\]确切的值,为此,我们需要事先对总体抽象观察,得到一组观察值[/LaTex](x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\[,来估计\]a,b[/LaTex]。
2. 模型假设
2.1较弱条件的假设
1. 线性于参数,在总体模型中,因变量\[y\]与自变量\[x\]和误差\[\epsilon\]的关系如下\[y = a+bx+\epsilon\].
2. 简单随机抽样,随机样本\[\{ (x_i,y_i),i=1,2,3,\cdots,n\}\]服从假设1中的方程,样本容量为\[n\]。
3. 解释变量有波动,即\[\sum\limits_{i=1}^{n}(x_i-\bar x)^2 \neq 0\]。
4. 零条件均值,给定解释变量的任何值,误差的期望值都为0,\[E(u|x)=0\]。
5. 同方差性,\[Var(u|x) = \sigma^2\]

2.2更严格的假设
1. \[\epsilon_i \sim N(0,\sigma^2)\]
2. \[\epsilon_i,\left(i = 1,2,3,\cdots,n\right)\]独立
注:上述的g更严格是为了确定\[\hat a,\hat b\]以及其他估计量的概率分布而做出的,如果不要求推导估计量的概率分布,仅需要假设\[E\left(\epsilon_i\right) = 0,Var\left(\epsilon_i\right) = \sigma^2\],也可以推导出\[\hat a,\hat b\]的估计值和期望和方差。

3. \[a,b\]的估计
取\[x\]的 [LaTex]n[LaTex]个不完全相同的值\[x_1,x_2,x_3,\cdots,x_n\]做独立实验,得到样本\[(x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\]。

3.1 极大似然估计
由独立性,得到极大似然函数
[LaTex]
L = \prod_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}}exp\left[-\frac{1}{2\sigma_2}\left(y_i-a-bx_i\right)^2\right] \\
= (\frac{1}{\sigma\sqrt{2\pi}})^nexp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-a-bx_i)^2\right]
[/LaTex]

要让\[L​\]取到最大值,只要中括号内取到最小值,记
\[
Q(a,b) = \sum_{i=1}^{n}(y_i-a-bx_i)^2
\]
即让函数\[Q\]取到最小值,令\[Q\]关于\[a,b\]的偏导数为0
\[
\dfrac{\partial Q}{\partial a} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i) = 0 \\
\dfrac{\partial Q}{\partial b} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i)x_i = 0
\]
得到方程组
\[
\begin {cases}
na + (\sum\limits_{i=1}^{n}x_i)b = \sum\limits_{i=1}^{n}y_i\\
(\sum\limits_{i=1}^{n}x_i)a + (\sum\limits_{i=1}^{n}x_i^2)b = \sum\limits_{i=1}^{n}x_iy_i\\
\end{cases}\tag{1}
\]
由假设知系数行列式为\[n\sum\limits_{i=1}^{n}(x_i-\bar x)\neq0\],故方程组有唯一解
\[
\begin {cases}
\hat {b} = \dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}\\
\hat{a} = \bar{y}-\hat{b}\bar{x}
\end{cases}
\]
注:通常从方程组中直接解得不含\[\hat{b}\]的\[\hat{a}\]的表达式不使用,使用比较麻烦。

3.2最小二乘法(OLS)
最小二乘法即为让\[Y\]的观测值\[y_i\]与\[a+bx_i\]的偏差平方和最小,也就是函数\[Q(a,b)\]取到最小值,由此可知,在一元线性回归中最小二乘法得到的结果和极大似然法是一样的。但是在极大似然法的估计过程中先假设了正态性,而最小二乘法一开始并不要求正态性。


3.3经验回归方程
得到\[a,b\]的估计值\[\hat{a},\hat{b}\]后,称方程\[\hat{y} = \hat{a}+ \hat{b}x\]为经验回归方程。为了方便,记
\[
\begin{eqnarray}
&S_{xx}& = \sum_{i=1}^{n}(x_i-\bar{x})^2\\
&S_{xy}& = \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\
&S_{yy}& = \sum_{i=1}^{n}(y_i-\bar{y})^2\\
&\hat{\epsilon_i}& = y_i-\hat{a}-\hat{b}x_i
\end {eqnarray}
\]
其中\[\hat{\epsilon_i}\]为残差的估计值,应根据上下文区别残差和残差估计值,注意\[S_{xy},S_{yy}\]是随机变量而\[S_{xx}\]是常量。

4. 回归估计基本性质
由方程组(1)易得性质1,2
1. \[\sum(y_i-\hat{a}-\hat{b}x_i) = 0\],即\[\sum{\hat{\epsilon_i}}=0\]
2. \[\sum{x_i(y_i-\hat{a}-\hat{b}x_i)} = 0\],即\[\sum{x_i\hat{\epsilon_i}}=0\]
3. \[\bar{y} = \hat{a}+\hat{b}\bar{x}\],性质3可以有性质1移项两边同时除以\[n\]得到,即\[(\bar{x},\bar{y})\]在经验回归方程线上。
4. \[\bar{y_i} = \bar{\hat{y_i}}\]<br>性质4证明:<br>
   \[
   \begin{eqnarray}
   y_i &=& \hat{y_i}+\hat{\epsilon_i}\\
   \sum y_i &=& \sum \hat{a}+\hat{b}x_i + \hat{\epsilon_i}\\
   \end{eqnarray}
   \]
   由性质1\[\sum{\hat{\epsilon_i}}=0\]:<br>
   \[
   \begin {eqnarray}
   \sum y_i &=& \sum \hat{a}+\hat{b}x_i\\
   \end {eqnarray}
   \]
   两边同时除以\[n\],即得到性质4.

5. \[Cov(\hat{y_i}, \hat{\epsilon_i})=0\]<br>性质5证明:
   \[
   Cov(\hat{y_i},\hat{\epsilon_i}) = E(\hat{y_i}\hat{\epsilon_i})-E(\hat{y_i})E(\hat\epsilon_i)
   =E(\hat{y_i}\hat{\epsilon_i})\\
   E(\hat{y_i}\hat{\epsilon_i}) = \frac{1}{n}\sum{(\hat{a}+\hat{b}x_i)\hat{\epsilon_i}}
   =\frac{1}{n}(\hat{a}\sum{\hat{\epsilon_i}}+\hat{b}\sum\hat{\epsilon_i}x_i)=0
   \]
   最后一个等式利用了性质1和2。

6. 记
   \[
   \begin{eqnarray}
   SST &=& \sum(y_i-\bar{y})^2\\
   SSE &=& \sum(\hat{y_i}-\bar{y})^2\\
   SSR &=& \sum\hat{\epsilon_i}^2
   \end {eqnarray}
   \]
   其中SST表示总观测值的波动,SSE表示估计值的波动(注意到性质4,可以用估计值的平均值代替样本的平均值),SSR表示残差的总波动。
   \[
   \begin {eqnarray}
   SST
   &=& \sum(y_i-\bar{y})^2 \\
   &=& \sum(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2\\
   &=& \sum(y_i-\hat{y_i})^2-2(y_i-\hat{y_i})(\hat{y_i}-\bar{y})+(\hat{y_i}-\bar{y})^2\\
   &=& SSR+SSE+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})\\
   &=& SSR+SSE+2\sum{\hat{\epsilon_i}(\hat{y_i}-\bar{y})} \\
   &=& SSR+SSE+2\sum \hat{\epsilon_i}\hat{y_i}-2\bar{y}\sum\hat{\epsilon_i}\\
   &=& SSR+SSE
   \end {eqnarray}
   \]
   最后一个等号应用了性质1和性质5。<br>定义\[R^2 =1-\dfrac{SSR}{SST} =\dfrac{SSE}{SST}\],表示回归变差占总变差的百分比,显然有\[R^2\]越大越好,也称\[R^2\]为拟合优度或者可决系数或者判定系数。
   \[
   R^2 = \dfrac{SSE}{SST} = \dfrac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}
   \]
   \[R^2\]也等于\[y_i\]和\[\hat{y_i}\]的相关系数的平方,证明如下:
   [LaTex]
   \begin {eqnarray}
   Cov^2(y_i,\hat{y_i})
   &=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{\hat{y}})^2}}}\right]^2\\
   &=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}}\right]^2\\
   &=& \dfrac{\left[\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})\right]^2}{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}
   \end {eqnarray}
   [/LaTex]
   对分子展开得
   \[
   \begin{eqnarray}
   \sum(y_i-\bar{y})(\hat{y_i}-\bar{y}) &=& \sum y_i\hat{y_i}-y_i\bar{y}-\hat{y_i}\bar{y}+\bar{y}^2\\
   &=& \sum (\hat{y_i}+\hat{\epsilon_i})\hat{y_i}-\bar{y}\sum y_i - \bar{y}\sum\hat{y_i} + n\bar{y}^2\\
   &=& \sum \hat{y_i}^2 + \sum \hat{\epsilon_i}\hat{y_i} - n\bar{y}^2 - n\bar{y}^2 + n\bar{y}^2\\
   &=& \sum \hat{y_i}^2 -2n\bar{y}^2 + n\bar{y}^2\\
   &=& \sum \hat{y_i}^2 - \sum 2\bar{y}\hat{y_i} + \sum \bar{y}^2\\
   &=& \sum (\hat{y_i}-\bar{y})^2
   \end{eqnarray}
   \]
   将上述结果代回相关系数表达式中易得相关系数平方为拟合优度。分子展开过程中多次使用了性质1-5。
   调整后的\[R^2\],
   \[
   R^2_{\text{Adj}}=1-\frac{SSR/(n-p-1)}{SST/(n-1)}=1-\frac{SSR}{SST}\frac{(n-1)}{(n-p-1)}=1-(1-R^2)\frac{n-p-1}{n-1}
   \]
   p是变量个数,考虑了自由度,SSR被(p+1)个方程约束,对于一元线性回归,p取1.

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:一元线性回归 经验回归方程 最小二乘法 极大似然 线性回归 线性回归

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-20 03:01