- 输入数据进行多元回归
- 选择多元回归模型
- 设置多元回归的参考水平
- 多元回归插值(预测)
- 比较多元回归模型
- 多元回归中的权重
- 选择多元回归的诊断
- 绘制多元回归的残差
选择多元回归模型
Prism目前提供三种不同的多元回归模型框架:线性、泊松和逻辑。本节介绍线性和泊松的选项。
当Y为连续变量时,使用多元线性回归。Prism最小化了数据点与曲线之间垂直距离的平方和。这种方法通常被称为最小二乘法。如果您假设残差分布(点到预测值的距离)是高斯分布,这是一个合适的选择。
当每个Y值都是对象或事件的计数(0,1,2,…)时,使用泊松回归。这些必须是实际计数,不以任何方式规范化。如果一台机器说您的样品每分钟有98.5个放射性衰变,但您要求计数器计数每个样品10分钟,那么它就会计数985个放射性衰变。这是您应该为泊松回归输入的值。如果Y值是归一化计数,而不是实际计数,那么不应该选择泊松回归。
选择因变量
一个变量是因变量Y,您必须告诉Prism它是哪个变量。多元回归的目标是找到最能预测该变量的模型。
注意,Y变量必须是连续变量。如果您的结果(Y)变量是二元的(只有两个可能的值),您应该使用逻辑回归而不是多元回归。
定义模型
Prism要求您精确指定要适合的模型。它不能自动为您选择一组变量或交互。
Intercept
截距是当所有连续预测变量等于零并且分类预测变量设置为其参考水平时结果变量的值。您几乎总是希望包含截距,因此Prism符合其值。只有当您有非常充分的理由时才将其从模型中删除,因为这很少有意义。从模型中删除截距与将其设置为零相同。
Main effects
每个主效应用一个参数乘以一个回归系数(参数)。您几乎总是希望在模型中包含所有主要效果。对于每个连续预测变量,只需要一个系数。分类预测变量所需的系数数等于比分类变量的层次数少一个(由于变量编码的过程)。如果您取消选中其中一个主要效果,那么该预测变量将本质上不是分析的一部分(除非该变量是下面解释的交互或转换的一部分)。
Two-way interactions
每个双向交互将两个参数相乘,并将该乘积乘以一个回归系数(参数)。双向交互通常(但并非总是)用于多元回归。为什么“交互”?因为模型使用了两个变量的乘积。当然,两个变量可以以多种方式相互作用,而不仅仅是通过将两个变量相乘来捕获的方式。
Three-way interactions
每个三方交互将三个参数相乘,并将该乘积乘以一个回归系数(参数)。与双向交互相比,三向交互的使用更少。
Transforms
Prism允许您使用模型中任何连续预测变量的平方、立方或平方根。
示例模型
在这个例子中,变量A是血压,单位是mmHg,变量B是年龄,单位是年,变量C是体重,单位是kg,变量D是性别,分别是“男”和“女”。如果选择变量A作为因变量(结果),模型中包含变量B、C、D,则得到的模型可以表示为:
血压~截距+年龄+体重+性别
与本例数据拟合的完整数学模型为:
血压= β0 + β1*年龄+ β2*体重+β3*性别[男]
Prism找到系数的值(beta值),这些值使数据中结果变量的值与公式预测的值之间的差的平方和最小。
这个模型非常简单,但令人惊讶的是它竟然如此有用。对于血压的例子,模型假设:
- 平均而言,随着年龄的增长,血压会增加(或减少)一定的量(年龄贝塔系数的最佳拟合值)。这个量对于所有年龄和体重的男性和女性都是一样的。
- 平均而言,每磅(体重系数的最佳拟合值)血压会增加(或减少)一定的量。这个量对于所有年龄和体重的男性和女性都是一样的。
- 平均而言,男性的血压比女性高(或低)一定程度(“性别[男性]”的贝塔系数的最佳拟合值;在这种情况下,“女性”是预测变量“性别”的参考水平)。这个量对于所有年龄和体重的人都是一样的。
- 这个模型的截距很难概念化,因为它代表一个女性(性别变量的参考水平),年龄和体重都等于零。显然,这个值并不代表现实中可能存在的观测值(年龄和体重都不可能等于零),但它对模型来说是一个重要的值,可以通过插值来预测更合理的值(例如女性在年龄和体重平均值下的血压)。
数学术语是模型是线性的,不允许相互作用。线性意味着保持其他变量不变,血压与年龄(或体重)的曲线是一条直线。没有相互作用意味着血压与年龄线的斜率对所有体重和男性和女性都是相同的。
如果勾选包含年龄和性别交互作用的选项,则模型将显示为:
血压~截距+年龄+体重+性别+年龄:性别
包含相互作用项的完整数学模型为:
血压= β0 + β1*年龄+ β2*体重+β3*性别[男]+ β4*年龄*性别[男