相似文件
换一批
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
- 输入数据进行多元回归
- 选择多元回归模型
- 设置多元回归的参考水平
- 多元回归插值(预测)
- 比较多元回归模型
- 多元回归中的权重
- 选择多元回归的诊断
- 绘制多元回归的残差
设置多元回归的参考水平 当回归模型中包含一个分类变量作为预测器时,Prism会使用“虚拟编码”自动对该变量进行编码。这个过程(在幕后)生成许多新变量,这些变量等于原始分类变量的级别数减去1。换句话说,如果一个分类预测变量有5个独特的级别(例如a、B、C、D和E),则虚拟编码将生成4个新变量。如果一个分类预测变量只有两个独特的水平(例如,男性和女性),虚拟编码将只生成一个新变量。这样,除了一个分类预测变量之外,每个级别的分类预测变量都有一个用于回归分析的新变量。此外,为每个新变量计算一个贝塔系数。 但是这些系数代表什么呢?那没有新变量的那一层呢?这些问题都与分类预测变量的参考水平的概念有关。
什么是参考水平 分类预测变量的参考水平通常被认为是对给定变量观察到的“基线”或“通常”值。在虚拟编码的过程中,参考水平的变量被忽略了,因为它对每个观测值都只包含“0”。相反,参考水平被用作解释生成的回归模型的手段。让我们用一个例子来说明这一点:
考虑一个包含分类预测变量“性别”和“男性”和“女性”水平的模型。如果“女性”是我们的参考水平,那么预测模型将包含“男性”的贝塔系数,但不会包含“女性”的贝塔系数。在这种情况下,“男性”的贝塔系数告诉我们,在保持所有其他变量不变的情况下,预测结果变量在男性和女性之间的变化程度。换句话说,如果“男性”的贝塔系数是-5.632,那么(保持所有其他变量不变),结果变量预测男性比女性小5.632。
如何指定参考水平
在参考水平选项卡上,回归模型中包含的每个分类预测变量将在“定义参考水平”下列出。对于每个变量,您可以选择自动定义引用级别或手动定义级别。Prism提供了许多基于数据表中的数据自动指定引用级别的方法。这些方法包括:
- 第一个水平(默认)。这将选择数据表中变量的第一层。注意,如果数据表中的行顺序发生变化,那么这个引用级别也可能发生变化!
- 最后一个水平。这将选择数据表中变量的最终级别。注意,如果数据表中的行顺序发生变化,那么这个引用级别也可能发生变化!
- 最常见的水平。如果您希望回归系数提供与普通水平相比的罕见水平的信息,则可以使用此方法。注意,更改数据表中行的顺序不会导致此引用级别发生变化。然而,添加或删除数据可能会导致引用发生变化(通过改变每个级别的频率)。
- 频率最低的水平。这将决定变量中哪个级别是最常见的,并选择它作为引用。注意,更改数据表中行的顺序不会导致此引用级别发生变化。然而,添加或删除数据可能会导致引用发生变化(通过改变每个级别的频率)。
[size=14.6667px]
对于这些自动方法中的每一个,对数据的某些更改(组织或添加/删除数据)可能会导致指定引用级别的更改。然而,如果您想让Prism自动确定参考水平,但防止它随着数据的变化而改变,您可以使用复选框“在数据改变时重新计算自动参考水平”。 最后,您还可以通过在第一个下拉菜单中选择“custom…”并在第二个下拉菜单中选择所需的级别来选择指定自定义参考级别。
改变结果中分类变量水平的顺序
当为回归分析生成结果输出时,Prism将按照它们在数据表中出现的顺序显示分类预测变量的级别。但是,为了出版或发表,有时可能需要更改回归模型中一个或多个特定分类预测变量的级别顺序。“定义参考级别”部分中的Order按钮允许您分别自定义每个分类变量的级别顺序。“定义类别顺序”子菜单中的控件允许您:
- 将分类变量的参考级别设置为当前选择的级别
- 手动重新排序关卡(顶部,向上,反向,向下和底部控制)
- 使用以下三种默认方法之一重新排序:
- 视觉顺序:级别在数据表中首次出现的顺序
- 频率:频率越高的水平顺序越高
- 按字典顺序排列:按字典顺序排列。类似于字母顺序,但要注意的是,一个名为“a100”的关卡应该排在“a90”之前,因为“1”在“9”之前。这个顺序没有考虑整个数字“100”大于整个数字“90”这一事实。
如果输入数据改变,参考电平会发生什么变化?
默认情况下,选择分类变量的参考级别作为该变量在数据表中的第一级。Prism还提供其他自动选项,包括“最后一个级别”,“最频繁级别”和“最不频繁级别”。但是,如果输入数据发生了变化(或者向输入数据表中添加了额外的数据),这些自动选择中的一些也可能发生变化。为了确保指定的参考电平在输入数据更改或添加额外数据时不会改变,可以取消选中“当数据更改时重新计算自动参考电平”旁边的框,或者使用适当的下拉菜单将单个参考电平设置为“自定义…”。
多元回归插值(预测)
像简单的线性回归和非线性回归一样,Prism也允许从多元线性回归进行插值。使用指定的多元回归模型和最佳拟合参数系数,Prism可以通过两种不同的方式对结果变量进行插值:从输入数据表中的点和使用插值选项卡上的指定点。
从输入数据表中插值点
当选中此框时,Prism将检查输入数据表中的行:
- 包含指定模型中每个预测变量的值
- 在指定的模型中不包含结果变量的值
[size=14.6667px]
对于每一行,Prism将使用确定的最佳拟合参数系数以及该行中的值来计算指定结果变量的相应值。请注意,与简单的线性或非线性回归不同,用于插值的行不需要位于数据表的末尾。Prism将搜索符合上述两个条件的任何行进行插值。 当记录了关于预测变量的各种观测值,而不是结果变量的值时,此功能可能很有用。
从指定列表中插值点 当选中此框时,Prism允许您通过为每个预测变量指定值来创建自定义插值点。使用向上/向下箭头指定要添加插值的点的数量。在两个框的顶部,可以为每个插值点添加名称/标签。
插值的每个点必须为模型中的每个预测变量定义值。要定义这些值,请选择“Auto”方法或从下拉菜单中选择“Custom…”。每个预测变量的默认设置如下:
- 连续变量:Auto下拉菜单设置为“Default”,值为零
- 分类变量:Auto下拉菜单和value将匹配该变量的Reference级别的设置。如果未手动更改参考值,则自动下拉菜单将设置为“一级(默认)”。
[size=14.6667px]
基于此信息,在不更改预测变量的任何默认值的情况下,结果变量的内插值将等于截距。 对于每个预测变量,您可以输入一个值,或者选择该变量的最小值、最大值或值。 类似地,对于分类变量,Prism提供了使用数据中第一层、最后一层或最频繁/最不频繁的层进行插值的选项。同样,如果数据发生变化,Prism将自动更新相应的插值。 最后,对于连续变量和分类变量,Prism允许输入一个“Custom…”值来进行插值。
插值的置信区间 Prism还提供了报告结果变量内插值的置信区间的选项。要指定置信水平,请使用“诊断”选项卡的“计算”部分中的下拉菜单。 如果输入数据发生变化,内插(预测)值会发生什么变化? 当多元线性回归的输入数据发生变化时,Prism会自动重新计算指定模型的回归系数。这将对从模型插入(或预测)的值产生影响。此外,对于使用对话框中列出的预测变量值插值的点,对数据的更改可能会改变各种“自动”赋值方法的值。 对于连续变量,Prism提供了从数据表中该变量的最小值、最大值或平均值进行插值的选项(使用“Auto”方法下拉菜单)。如果数据发生变化,这个最小值、最大值或平均值也可能发生变化,从而导致在插值计算中使用不同的值。 类似地,对于分类变量,Prism提供了使用数据表中该变量的第一层、最后一层、最频繁层或最不频繁层进行插值的选项(使用“Auto”方法下拉菜单)。如果数据发生了变化,那么第一、最后、最频繁或最不频繁的级别也可能发生变化,从而导致在插值计算期间使用不同的值。
请注意,用于插值的分类变量的默认“Auto”方法(和值)将匹配该变量的参考级别的方法(和值)。但是,一旦使用特定的方法对一个点进行了内插,改变确定参考水平的方法将不会改变被内插点的指定方法。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|