人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 关于最小二乘法的假设检验项中的残差和误差的疑问

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: xinyinian

713 4

[实际应用] 关于最小二乘法的假设检验项中的残差和误差的疑问 [推广有奖]

0关注
0粉丝

本科生

40%

还不是VIP/贵宾

威望: 0 级
论坛币: 2 个
通用积分: 1.6075
学术水平: 5 点
热心指数: 0 点
信用等级: 0 点
经验: 525 点
帖子: 23
精华: 0
在线时间: 114 小时
注册时间: 2018-12-28
最后登录: 2023-10-27

楼主

xinyinian 发表于 2022-10-20 13:16:30 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位大神，本人在用R语言做回归分析时，需要在建模后检验。对残差进行正态性、独立性、线性、同方差性检验。之后就疑惑了，这些检验指标的根据是什么？上网查询了下，发现高斯-马尔科夫定理说的是“在线性回归模型中，如果误差满足零均值、同方差且互不相关，则回归系数的最佳线性无偏估计(BLUE, Best Linear Unbiased Estimator)就是普通最小二乘法估计。”那么问题就来了，如果按照G-M定理说的，定理中说的是误差，但实际上我这里模型拟合后拟合值和真是值的差值却是残差，这两个概念并不一样，就算是“把残差视为对总体模型中误差项的估计”感觉还是难以理解。请教各位大神有没有对回归建模的假设根据更好的解释？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：最小二乘法最小二乘假设检验 estimator unbiased

相关帖子

使用道具举报

沙发

无用户名

发表于 2022-10-20 13:54:50 来自手机 |只看作者 |坛友微信交流群

xinyinian 发表于 2022-10-20 13:16
各位大神，本人在用R语言做回归分析时，需要在建模后检验。对残差进行正态性、独立性、线性、同方差性检验。 ...

实证中就是对回归残差进行检验，R中可以使用plot(model, which = c(1:4))实现

已有 1 人评分	论坛币	收起理由
cheetahfly	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

使用道具举报

藤椅

llb_321

发表于 2022-10-20 15:30:27 |只看作者 |坛友微信交流群

这么专业啊。如果不是专么研究统计基础理论的，有些问题倒不必钻牛角尖。
做线性回归，我们的假设是因变量与自变量之间的关系可以用形如\[y = \beta_{0} + \beta_{1}x +\epsilon\]的线性方程描述，其中\[\beta\]为回归参数，\[\epsilon \sim N(0,\sigma^{2}) \]为随机误差。
对于二维空间，普通最小二乘法在几何意义上使得所有样本点到方程所确定的线的残差平方和最短。
标准化残差，服从(0,1)标准正态分布。这一点与题目中的高斯-马尔科夫定理似乎不矛盾吧？

至于说误差(errors)还是残差(residuals)，如果再扣细一些，什么是残差？什么又是误差？
说到误差，是谁和谁的误差，比如极大似然估计，其标准误差是指样本均值和总体均值的差异，而线性回归的误差可能说的是估计值的均方误差(MSE)，而这个误差又可以拆成偏差(bias)和方差(variance)。
再理解一下，对于线性回归，这个误差和残差究竟有什么关联，可不可以说残差结果也是我们计算某种误差的基础呢。

已有 1 人评分	论坛币	收起理由
cheetahfly	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

使用道具举报

板凳

drunkfish69 发表于 2022-10-22 11:09:01 |只看作者 |坛友微信交流群

对这个问题曾经也云山雾罩了很久，后来在实际工作中逻辑上自洽了一下（自我安慰），也不知道对不对？拿出来分享下。假设设计一个零件某一标注尺寸是100mm, 在机床上加工后测量后为100.1mm；然后你拿这个观测值去做回归、残差。。。或其他数据分析。这里有个前提是假设观测值是"真实的“；但其实不是，本身测量工具的精度就会造成差异，譬如用不同的工具，游标卡尺或激光三坐标测量仪，就会引入与”真实值“间不同测量误差。所以定理里强调的前提是误差满足零均值，按照我的理解就是测量值与’真实值‘的差异。例子中三坐标测量仪精比游标卡尺搞几个数量级，可以认为误差更小。估计这也是测量器具需要定期校验的一个意义。

使用道具举报