发帖

楼主: IntoDust

749 0

从零开始，一元线性回归(1) [推广有奖]

0关注
0粉丝

高中生

30%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 4 个
通用积分: 0.1500
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 260 点
帖子: 6
精华: 0
在线时间: 33 小时
注册时间: 2018-10-26
最后登录: 2023-1-30

楼主

IntoDust 发表于 2018-11-18 22:02:16 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一元线性回归

1.一元线性回归模型
我们假设对于\[x\]（在某一个区间内）的每一个值有\[Y = a + bx + \epsilon\]，其中[LaTex]a,b[、LaTex]是确定的值，\[\epsilon\]是误差项，是一个随机变量，那么对于每一个观察到的\[x\]，\[Y\]是一个随机变量，与\[\epsilon\]有关。通常情况下，我们不知道\[a，b\]确切的值，为此，我们需要事先对总体抽象观察，得到一组观察值[/LaTex](x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\[，来估计\]a,b[/LaTex]。

2. 模型假设
2.1较弱条件的假设
1. 线性于参数，在总体模型中，因变量\[y\]与自变量\[x\]和误差\[\epsilon\]的关系如下\[y = a+bx+\epsilon\].
2. 简单随机抽样，随机样本\[\{ (x_i,y_i),i=1,2,3,\cdots,n\}\]服从假设1中的方程，样本容量为\[n\]。
3. 解释变量有波动，即\[\sum\limits_{i=1}^{n}(x_i-\bar x)^2 \neq 0\]。
4. 零条件均值，给定解释变量的任何值，误差的期望值都为0,\[E(u|x)=0\]。
5. 同方差性，\[Var(u|x) = \sigma^2\]

2.2更严格的假设
1. \[\epsilon_i \sim N(0,\sigma^2)\]
2. \[\epsilon_i,\left(i = 1,2,3,\cdots,n\right)\]独立
注：上述的g更严格是为了确定\[\hat a,\hat b\]以及其他估计量的概率分布而做出的，如果不要求推导估计量的概率分布，仅需要假设\[E\left(\epsilon_i\right) = 0,Var\left(\epsilon_i\right) = \sigma^2\]，也可以推导出\[\hat a,\hat b\]的估计值和期望和方差。

3. \[a,b\]的估计
取\[x\]的 [LaTex]n[LaTex]个不完全相同的值\[x_1,x_2,x_3,\cdots,x_n\]做独立实验，得到样本\[(x_i,y_i),\left(i=1,2,3,{\cdots},n\right)\]。

3.1 极大似然估计
由独立性，得到极大似然函数
[LaTex]
L = \prod_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}}exp\left[-\frac{1}{2\sigma_2}\left(y_i-a-bx_i\right)^2\right] \\
= (\frac{1}{\sigma\sqrt{2\pi}})^nexp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-a-bx_i)^2\right]
[/LaTex]

要让\[L\]取到最大值，只要中括号内取到最小值，记
\[
Q(a,b) = \sum_{i=1}^{n}(y_i-a-bx_i)^2
\]
即让函数\[Q\]取到最小值，令\[Q\]关于\[a,b\]的偏导数为0
\[
\dfrac{\partial Q}{\partial a} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i) = 0 \\
\dfrac{\partial Q}{\partial b} = -2\sum\limits_{i=1}^{n}(y_i-a-bx_i)x_i = 0
\]
得到方程组
\[
\begin {cases}
na + (\sum\limits_{i=1}^{n}x_i)b = \sum\limits_{i=1}^{n}y_i\\
(\sum\limits_{i=1}^{n}x_i)a + (\sum\limits_{i=1}^{n}x_i^2)b = \sum\limits_{i=1}^{n}x_iy_i\\
\end{cases}\tag{1}
\]
由假设知系数行列式为\[n\sum\limits_{i=1}^{n}(x_i-\bar x)\neq0\]，故方程组有唯一解
\[
\begin {cases}
\hat {b} = \dfrac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}\\
\hat{a} = \bar{y}-\hat{b}\bar{x}
\end{cases}
\]
注：通常从方程组中直接解得不含\[\hat{b}\]的\[\hat{a}\]的表达式不使用，使用比较麻烦。

3.2最小二乘法(OLS)
最小二乘法即为让\[Y\]的观测值\[y_i\]与\[a+bx_i\]的偏差平方和最小，也就是函数\[Q(a,b)\]取到最小值，由此可知，在一元线性回归中最小二乘法得到的结果和极大似然法是一样的。但是在极大似然法的估计过程中先假设了正态性，而最小二乘法一开始并不要求正态性。

3.3经验回归方程
得到\[a,b\]的估计值\[\hat{a},\hat{b}\]后，称方程\[\hat{y} = \hat{a}+ \hat{b}x\]为经验回归方程。为了方便，记
\[
\begin{eqnarray}
&S_{xx}& = \sum_{i=1}^{n}(x_i-\bar{x})^2\\
&S_{xy}& = \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\
&S_{yy}& = \sum_{i=1}^{n}(y_i-\bar{y})^2\\
&\hat{\epsilon_i}& = y_i-\hat{a}-\hat{b}x_i
\end {eqnarray}
\]
其中\[\hat{\epsilon_i}\]为残差的估计值，应根据上下文区别残差和残差估计值，注意\[S_{xy},S_{yy}\]是随机变量而\[S_{xx}\]是常量。

4. 回归估计基本性质
由方程组(1)易得性质1,2
1. \[\sum(y_i-\hat{a}-\hat{b}x_i) = 0\]，即\[\sum{\hat{\epsilon_i}}=0\]
2. \[\sum{x_i(y_i-\hat{a}-\hat{b}x_i)} = 0\]，即\[\sum{x_i\hat{\epsilon_i}}=0\]
3. \[\bar{y} = \hat{a}+\hat{b}\bar{x}\]，性质3可以有性质1移项两边同时除以\[n\]得到，即\[(\bar{x},\bar{y})\]在经验回归方程线上。
4. \[\bar{y_i} = \bar{\hat{y_i}}\] 性质4证明: 
\[
\begin{eqnarray}
y_i &=& \hat{y_i}+\hat{\epsilon_i}\\
\sum y_i &=& \sum \hat{a}+\hat{b}x_i + \hat{\epsilon_i}\\
\end{eqnarray}
\]
由性质1\[\sum{\hat{\epsilon_i}}=0\]: 
\[
\begin {eqnarray}
\sum y_i &=& \sum \hat{a}+\hat{b}x_i\\
\end {eqnarray}
\]
两边同时除以\[n\]，即得到性质4.

5. \[Cov(\hat{y_i}, \hat{\epsilon_i})=0\] 性质5证明:
\[
Cov(\hat{y_i},\hat{\epsilon_i}) = E(\hat{y_i}\hat{\epsilon_i})-E(\hat{y_i})E(\hat\epsilon_i)
=E(\hat{y_i}\hat{\epsilon_i})\\
E(\hat{y_i}\hat{\epsilon_i}) = \frac{1}{n}\sum{(\hat{a}+\hat{b}x_i)\hat{\epsilon_i}}
=\frac{1}{n}(\hat{a}\sum{\hat{\epsilon_i}}+\hat{b}\sum\hat{\epsilon_i}x_i)=0
\]
最后一个等式利用了性质1和2。

6. 记
\[
\begin{eqnarray}
SST &=& \sum(y_i-\bar{y})^2\\
SSE &=& \sum(\hat{y_i}-\bar{y})^2\\
SSR &=& \sum\hat{\epsilon_i}^2
\end {eqnarray}
\]
其中SST表示总观测值的波动，SSE表示估计值的波动(注意到性质4，可以用估计值的平均值代替样本的平均值)，SSR表示残差的总波动。
\[
\begin {eqnarray}
SST
&=& \sum(y_i-\bar{y})^2 \\
&=& \sum(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2\\
&=& \sum(y_i-\hat{y_i})^2-2(y_i-\hat{y_i})(\hat{y_i}-\bar{y})+(\hat{y_i}-\bar{y})^2\\
&=& SSR+SSE+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})\\
&=& SSR+SSE+2\sum{\hat{\epsilon_i}(\hat{y_i}-\bar{y})} \\
&=& SSR+SSE+2\sum \hat{\epsilon_i}\hat{y_i}-2\bar{y}\sum\hat{\epsilon_i}\\
&=& SSR+SSE
\end {eqnarray}
\]
最后一个等号应用了性质1和性质5。 定义\[R^2 =1-\dfrac{SSR}{SST} =\dfrac{SSE}{SST}\]，表示回归变差占总变差的百分比，显然有\[R^2\]越大越好，也称\[R^2\]为拟合优度或者可决系数或者判定系数。
\[
R^2 = \dfrac{SSE}{SST} = \dfrac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2}
\]
\[R^2\]也等于\[y_i\]和\[\hat{y_i}\]的相关系数的平方，证明如下:
[LaTex]
\begin {eqnarray}
Cov^2(y_i,\hat{y_i})
&=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{\hat{y}})^2}}}\right]^2\\
&=& \left[\dfrac{\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})}{\sqrt{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}}\right]^2\\
&=& \dfrac{\left[\sum(y_i-\bar{y})(\hat{y_i}-\bar{y})\right]^2}{\sum{(y_i-\bar{y})^2}\sum{(\hat{y_i}-\bar{y})^2}}
\end {eqnarray}
[/LaTex]
对分子展开得
\[
\begin{eqnarray}
\sum(y_i-\bar{y})(\hat{y_i}-\bar{y}) &=& \sum y_i\hat{y_i}-y_i\bar{y}-\hat{y_i}\bar{y}+\bar{y}^2\\
&=& \sum (\hat{y_i}+\hat{\epsilon_i})\hat{y_i}-\bar{y}\sum y_i - \bar{y}\sum\hat{y_i} + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 + \sum \hat{\epsilon_i}\hat{y_i} - n\bar{y}^2 - n\bar{y}^2 + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 -2n\bar{y}^2 + n\bar{y}^2\\
&=& \sum \hat{y_i}^2 - \sum 2\bar{y}\hat{y_i} + \sum \bar{y}^2\\
&=& \sum (\hat{y_i}-\bar{y})^2
\end{eqnarray}
\]
将上述结果代回相关系数表达式中易得相关系数平方为拟合优度。分子展开过程中多次使用了性质1-5。
调整后的\[R^2\],
\[
R^2_{\text{Adj}}=1-\frac{SSR/(n-p-1)}{SST/(n-1)}=1-\frac{SSR}{SST}\frac{(n-1)}{(n-p-1)}=1-(1-R^2)\frac{n-p-1}{n-1}
\]
p是变量个数，考虑了自由度，SSR被(p+1)个方程约束，对于一元线性回归，p取1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：一元线性回归经验回归方程最小二乘法极大似然线性回归线性回归

从零开始，一元线性回归(1) [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

从零开始，一元线性回归(1) [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群