当Y只有两个选项时,可以使用二分类Logistics,当Y有三项或更多时,则应该使用多分类Logistics回归,比如是否愿意购买,是否愿意推荐,出行方式偏好,总统候选人选择偏好等。
二元logit和多分类logit
参照项设置
Logistic回归时,因变量Y值为定类数据,因而需要有对照参考项。如果是二元Logistic回归,默认以数字0作为参考项(通常用数字0表示不愿意,不喜欢,不会等)
如果是多分类logistic回归,SPSSAU默认以数字最小的一项作为参考项。如果想更换参考项,可在【数据处理->数据编码】里进行设置,把参考项的数值设为最小的数值即可。如下图所示,原本以1作为参考项,现在将3作为参考项,将3改为0即可,当然设置其它更小值比如-1也可以。
案例应用
(1)背景
在2016年美国总统选举时,共有三名候选人,分别是特朗普、希拉里、卢比奥。有一市场研究公司想预测最终谁会胜出,因此收集到共1847名民众信息,包括选择偏好,性别,年龄,学历等信息进行研究,研究性别,年龄和学历对于总统候选人选择的影响情况,最终做出科学预测。
(2)操作步骤
性别、年龄、学历为自变量,总统候选人为因变量,由于Y为定类数据且无序,选择多分类Logistic回归进行分析。
性别为定类数据,分析前需要先进行哑变量处理。学历这里看作是定量数据,因此直接纳入模型不作处理。最终分析放置如下:
SPSSAU-多分类Logit分析
- 如果系统提示“Y的选项过少或过多”?
意味着因变量Y的选项不符合多分类logistic回归分析要求,通常情况下因变量Y的分类个数应该介于3~8个之间。如果出现该提示,可使用频数分析查看Y选项的个数。如果选项个数过多,则需要进行合并处理等(【数据处理->数据编码】里设置)。
(3)结果分析
SPSSAU共输出三个结果表格,分别是基本信息汇总表、似然比检验表、多分类Logit回归分析结果。
表1 多分类Logistic回归分析基本信息表
表1为基本信息汇总表,用来汇总数据信息,查看Y值分布情况以及是否有缺失数据。如果缺失数据过多,或者Y值分布非常不均匀,可能会导致模型质量较差。如果Y值选项过多且分布不均需要对选项进行合并处理。
从上表可以看出,总共有1847个样本参加分析,并且没有缺失数据。选择特郞普的比例是35.79%,希拉里的选择比例是15.05%,卢比奥的比例最高为49.16%。
表2 似然比检验
表2为模型似然比检验结果,用于分析模型整体有效性。
此处模型检验的原定假设为:是否放入自变量(年龄, 学历, 性别_男)两种情况时模型质量均一样;这里P值小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。AIC和BIC值用于多次分析时的对比;两个值越低越好;如果多次进行分析,可对比此两个值的变化情况,说明模型构建的优化过程。
从上表看,模型检验的原定假设为:是否放入自变量(性别(男), 年龄, 学历)时模型质量均一样;这里P值小于0.05(x2=91.573,p=0.00),因而说明拒绝原定假设,即说明本次构建模型有意义。
表3为多分类回归分析结果汇总表,用于分析模型整体情况,以及每个X对Y的影响情况(显著性、影响程度等)。
分析步骤:
第一:对模型整体情况进行说明,比如对R方值进行描述,以及列出模型公式;
第二:逐一分析X对于Y(相对于的对比项)影响情况;如果X对应的P值小于0.05则说明X会对Y(相对于的对比项)产生影响关系,此时可结合OR值进一步分析影响幅度。
第三:总结分析结果。
总结分析:
从上表可知,模型伪R平方值( McFadden R平方)为0.025,意味着年龄, 学历, 性别_男可以解释总统候选人的2.47%变化原因。
本例以特朗普作为参照项进行对比分析,Y一共有3项,因而最终会有2个公式,最终模型公式如下:
ln(希拉里/特朗普)=0.081-0.437年龄-0.065学历 + 0.309*性别_男
ln(卢比奥/特朗普)=0.312 + 0.076年龄-0.002学历-0.436*性别_男
在特朗普和希拉里之间进行选择时, 选民的性别和年龄对选择偏好的影响有统计学意义。(P<0.05)。年龄的回归系数值为-0.437,OR值为0.646,意味着年龄会对总统候选人产生显著的负向影响关系,说明年龄大的选民倾向选择特朗普。
分析性别对选择偏好的影响,以女性为参考项,回归系数为0.309,OR值为1.362,说明相对于女性,男性群体更加愿意选择希拉里。
在特朗普和卢比奥之间进行选择时, 只有性别的影响有统计学意义(P<0.05)。性别_男的回归系数值为-0.436,OR值为0.647,意味着相比于女性,男性在选择时更愿意选择特朗普。
其他说明
1、如果模型预测准确率较低,需要多次进行分析对比,找出最优的模型结果。
2、SPSSAU默认将Y的最小数字作为对照项,如需修改可使用【数据处理->数据编码】功能进行设置。