R平方值揭秘
众所周知,在当今快速的结果和见解的世界中,没有人愿意花时间去理解某些统计术语的核心概念,同时执行分析程序。R平方统计(又称为确定系数)是一个被广泛谈论却在机制上鲜为人知的统计术语。此统计信息有助于测量数据与拟合的回归线的接近程度。
还值得一提的是,通过对相关系数统计量进行平方运算,可以计算出R平方值。但是,我想退后一步以消除有关此统计数据计算的迷雾,并消除周围的混乱(我知道这是相当极端的说法)。就像“魔鬼在细节中”
所以我们开始吧.....
什么是R平方值?
简而言之,它是平方总和–残差平方和/平方总和,很简单,让我们简单一点,也可以将其作为误差平方和/平方总和来表示。你们中有些人甚至可能会笑着说,但我们甚至都不知道如何计算上述曼波果酱,我对大家的回答是“不用担心,让我借助数学符号来解释它!” –是的,数学符号!
让我们通过一个示例使上述计算更加明显:
步骤1:计算Y变量的平均值和平方和的总和
计算Y变量的平均值,然后从每个Y变量中减去平均值并将其平方。平方后,将所有值求和以计算平方值的总和。注意:此过程将计算两个元素Y mean和TSS
步骤2:计算残差平方和
通过从“预测的Y”值中减去每个Y值并将其平方来计算此统计量。平方后,将所有值相加。注意:对于此示例,可以通过使用回归方程式得出预测值。所使用的回归方程式为y = -0.2428x + 5.3521
步骤3:计算平方误差总和(平方误差总和)
可以通过从Y平均值(我们在步骤1中计算出)中减去Yhat值(也就是预测的Y值)并将其平方来计算此统计量。最后,将所有值相加以获得ESS统计信息
计算完所有重要元素后,即可开始计算R平方值。
长格式R平方计算方法=(TSS – RSS)/ TSS
92.9375 – 88.4921 / 92.9375 = 0.0478(R平方值)
短格式R平方计算方法= ESS / TSS
92.9375 – 4.4453 = 0.0478(R平方值)
为了证明上述两个计算,我在Excel中创建了一个散点图,并且还通过利用Excel的数据分析工具包使用回归分析对信息进行了交叉验证。
您还可以验证我们计算出的统计数据与excel的数据分析工具包插件计算出的统计数据非常相似。
下一个可能是与R平方值有关的进一步讨论的很好的候选者是调整后的R平方,当我们有多个预测变量时,通常使用此统计信息。标准R Square值倾向于随着预测变量的数量而增加,这可能不是查看模型性能的好方法。因此,在使用多个预测变量时,统计学家和分析家更喜欢使用调整后的R平方值。
如何计算该值非常简单直接。让我们看一下它的符号,以了解这种统计的原理。
N =数据样本中的点数
P =独立预测变量或回归变量的数量,即模型中不包含常数的变量数量。
在我们的示例中这如何工作?
很简单,1 - (1 - 0.04783(R平方值))*(16(Y数个数据点) - 1)/(16 - 1(预测变量,如果你有> 1的预测变量,你会提这个数字此处)– 1)= – 0.02018 (从数据分析工具包的回归分析结果中检查调整后的R平方值)
题库