当回归模型中的自变量相关时,就会出现多重共线性。这种相关性是一个问题,因为自变量应该是独立的。如果变量之间的相关程度足够高,那么在拟合模型和解释结果时可能会出现问题。
在这篇博文中,我将重点介绍多重共线性可能导致的问题,向您展示如何测试您的模型,并重点介绍一些解决方法。在某些情况下,多重共线性不一定是问题,我将向您展示如何做出此决定。我将通过一个包含多重共线性的示例数据集来实现它!
为什么多重共线性是一个潜在的问题?
回归分析的一个关键目标是隔离每个自变量和因变量之间的关系。回归系数的解释是,当您保持所有其他自变量不变时,它表示自变量每变化 1 个单位的因变量的平均变化。最后一部分对于我们关于多重共线性的讨论至关重要。
这个想法是你可以改变一个自变量的值,而不是其他的。然而,当自变量相关时,它表明一个变量的变化与另一个变量的变化有关。相关性越强,改变一个变量而不改变另一个变量就越困难。模型很难独立地估计每个自变量和因变量之间的关系,因为自变量倾向于一致地变化。
多重共线性有两种基本类型:
结构多重共线性:当我们使用其他项创建模型项时,就会出现这种类型。换句话说,它是我们指定的模型的副产品,而不是存在于数据本身中。例如,如果您将 X 项平方以模拟曲率,则显然 X 和 X2 之间存在相关性。
数据多重共线性:这种类型的多重共线性存在于数据本身中,而不是我们模型的产物。观察性实验更有可能表现出这种多重共线性。
多重共线性会导致什么问题?
多重共线性会导致以下两种基本类型的问题:
根据模型中的其他自变量,系数估计值可能会大幅波动。系数对模型中的微小变化非常敏感。
多重共线性会降低估计系数的精度,从而削弱回归模型的统计能力。您可能无法信任 p 值来识别具有统计显着性的自变量。
想象一下,您拟合了一个回归模型,并且系数值甚至符号都会根据您包含在模型中的特定变量而发生巨大变化。当稍微不同的模型导致非常不同的结论时,这是一种令人不安的感觉。你不觉得你知道每个变量的实际效果!
现在,考虑到您不一定相信 p 值来选择要包含在模型中的自变量。如果您的许多 p 值在统计上不显着,则此问题使得指定正确的模型和证明模型的合理性都变得困难。
随着多重共线性的严重性增加,这些有问题的影响也会增加。然而,这些问题只影响那些相关的自变量。您可以拥有一个具有严重多重共线性的模型,但模型中的某些变量可能完全不受影响。
我稍后研究的具有多重共线性的回归示例说明了这些问题的实际作用。
我必须修复多重共线性吗?
多重共线性使您的系数难以解释,并且降低了模型识别具有统计意义的自变量的能力。这些绝对是严重的问题。然而,好消息是您不必总是找到解决多重共线性的方法。
减少多重共线性的需要取决于它的严重性和回归模型的主要目标。请记住以下三点:
问题的严重性随着多重共线性程度的增加而增加。因此,如果您只有中度多重共线性,您可能不需要解决它。
多重共线性仅影响相关的特定自变量。因此,如果您特别感兴趣的自变量不存在多重共线性,您可能不需要解决它。假设您的模型包含感兴趣的实验变量和一些控制变量。如果控制变量存在高度多重共线性,但实验变量不存在,那么您可以毫无问题地解释实验变量。
多重共线性影响系数和 p 值,但不影响预测、预测精度和拟合优度统计量。如果您的主要目标是进行预测,并且您不需要了解每个自变量的作用,则不需要减少严重的多重共线性。
多年来,我发现很多人对第三点不以为然,所以这里有一个参考!
使用方差膨胀因子 (VIF) 检验多重共线性
如果您可以确定哪些变量受多重共线性和相关强度的影响,那么您就可以确定是否需要修复它。幸运的是,有一个非常简单的测试可以评估回归模型中的多重共线性。方差膨胀因子 (VIF) 识别自变量之间的相关性和该相关性的强度。
统计软件计算每个自变量的 VIF。VIF 从 1 开始,没有上限。值为 1 表示该自变量与任何其他变量之间没有相关性。介于 1 和 5 之间的 VIF 表明存在中度相关性,但还不够严重,需要采取纠正措施。大于 5 的 VIF 表示多重共线性的临界水平,其中系数估计不佳且 p 值有问题。
使用 VIF 识别变量之间的相关性并确定关系的强度。大多数统计软件都可以为您显示 VIF。评估 VIF 对于观察性研究尤为重要,因为这些研究更容易出现多重共线性。
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡



京公网安备 11010802022788号







