楼主: spssau
1467 1

[学习资料] 快速掌握:多分类Logistic回归 [推广有奖]

  • 0关注
  • 34粉丝

教授

22%

还不是VIP/贵宾

-

威望
0
论坛币
165 个
通用积分
1001.5595
学术水平
20 点
热心指数
22 点
信用等级
20 点
经验
16842 点
帖子
535
精华
0
在线时间
636 小时
注册时间
2018-1-14
最后登录
2024-4-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

当Y只有两个选项时,可以使用二分类Logistics,当Y有三项或更多时,则应该使用多分类Logistics回归,比如是否愿意购买,是否愿意推荐,出行方式偏好,总统候选人选择偏好等。

二元logit和多分类logit

参照项设置

Logistic回归时,因变量Y值为定类数据,因而需要有对照参考项。如果是二元Logistic回归,默认以数字0作为参考项(通常用数字0表示不愿意,不喜欢,不会等)

如果是多分类logistic回归,SPSSAU默认以数字最小的一项作为参考项。如果想更换参考项,可在【数据处理->数据编码】里进行设置,把参考项的数值设为最小的数值即可。如下图所示,原本以1作为参考项,现在将3作为参考项,将3改为0即可,当然设置其它更小值比如-1也可以。

案例应用

(1)背景

在2016年美国总统选举时,共有三名候选人,分别是特朗普、希拉里、卢比奥。有一市场研究公司想预测最终谁会胜出,因此收集到共1847名民众信息,包括选择偏好,性别,年龄,学历等信息进行研究,研究性别,年龄和学历对于总统候选人选择的影响情况,最终做出科学预测。

(2)操作步骤

性别、年龄、学历为自变量,总统候选人为因变量,由于Y为定类数据且无序,选择多分类Logistic回归进行分析。

性别为定类数据,分析前需要先进行哑变量处理。学历这里看作是定量数据,因此直接纳入模型不作处理。最终分析放置如下:

SPSSAU-多分类Logit分析

  • 如果系统提示“Y的选项过少或过多”?

意味着因变量Y的选项不符合多分类logistic回归分析要求,通常情况下因变量Y的分类个数应该介于3~8个之间。如果出现该提示,可使用频数分析查看Y选项的个数。如果选项个数过多,则需要进行合并处理等(【数据处理->数据编码】里设置)。

(3)结果分析

SPSSAU共输出三个结果表格,分别是基本信息汇总表、似然比检验表、多分类Logit回归分析结果。

表1 多分类Logistic回归分析基本信息表

表1为基本信息汇总表,用来汇总数据信息,查看Y值分布情况以及是否有缺失数据。如果缺失数据过多,或者Y值分布非常不均匀,可能会导致模型质量较差。如果Y值选项过多且分布不均需要对选项进行合并处理。

从上表可以看出,总共有1847个样本参加分析,并且没有缺失数据。选择特郞普的比例是35.79%,希拉里的选择比例是15.05%,卢比奥的比例最高为49.16%。

表2 似然比检验

表2为模型似然比检验结果,用于分析模型整体有效性。

此处模型检验的原定假设为:是否放入自变量(年龄, 学历, 性别_男)两种情况时模型质量均一样;这里P值小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。AIC和BIC值用于多次分析时的对比;两个值越低越好;如果多次进行分析,可对比此两个值的变化情况,说明模型构建的优化过程。

从上表看,模型检验的原定假设为:是否放入自变量(性别(男), 年龄, 学历)时模型质量均一样;这里P值小于0.05(x2=91.573,p=0.00),因而说明拒绝原定假设,即说明本次构建模型有意义。

表3为多分类回归分析结果汇总表,用于分析模型整体情况,以及每个X对Y的影响情况(显著性、影响程度等)。

分析步骤:

第一:对模型整体情况进行说明,比如对R方值进行描述,以及列出模型公式;
第二:逐一分析X对于Y(相对于的对比项)影响情况;如果X对应的P值小于0.05则说明X会对Y(相对于的对比项)产生影响关系,此时可结合OR值进一步分析影响幅度。
第三:总结分析结果。

总结分析:

从上表可知,模型伪R平方值( McFadden R平方)为0.025,意味着年龄, 学历, 性别_男可以解释总统候选人的2.47%变化原因。

本例以特朗普作为参照项进行对比分析,Y一共有3项,因而最终会有2个公式,最终模型公式如下:
ln(希拉里/特朗普)=0.081-0.437年龄-0.065学历 + 0.309*性别_男
ln(卢比奥/特朗普)=0.312 + 0.076年龄-0.002学历-0.436*性别_男

在特朗普和希拉里之间进行选择时, 选民的性别和年龄对选择偏好的影响有统计学意义。(P<0.05)。年龄的回归系数值为-0.437,OR值为0.646,意味着年龄会对总统候选人产生显著的负向影响关系,说明年龄大的选民倾向选择特朗普。

分析性别对选择偏好的影响,以女性为参考项,回归系数为0.309,OR值为1.362,说明相对于女性,男性群体更加愿意选择希拉里。

在特朗普和卢比奥之间进行选择时, 只有性别的影响有统计学意义(P<0.05)。性别_男的回归系数值为-0.436,OR值为0.647,意味着相比于女性,男性在选择时更愿意选择特朗普。

其他说明

1、如果模型预测准确率较低,需要多次进行分析对比,找出最优的模型结果。

2、SPSSAU默认将Y的最小数字作为对照项,如需修改可使用【数据处理->数据编码】功能进行设置。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归 logistic ogistic logisti logist

www.spssau.com
沙发
军旗飞扬 发表于 2021-10-26 21:20:21 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 04:35