【On Spss】——【logisitic回归】
→理论+结果说明+汇总←
〈摘要〉
Logistic回归模型主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,通过就算可以的得到是非的概率,来进行预测!
〈深理论、简单说〉
logistic回归主要用来预测离散因变量与一组解释变量之间的关系。最常用的是二值型logistic。即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量。
本帖隐藏的内容
〈Logistic回归模型〉
logistic回归(Logisticregression) 与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布, 就是负二项回归,等等。只要注意区分它们的因变量就可以了。
logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
用途:
一、寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。
二、预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
三、判别,实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
〈操作步骤+语法〉
1:在“分类表”中可以看出: 预测有360个是“否”(未违约)有129个是“是”(违约)
2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026, 标准误差为:0.103
那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,
B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 =0.358, 其中自由度为1, sig为0.000,非常显著
1:从“分类表”—“步骤1” 中可以看出:选定的案例中,“是否曾今违约”总计:489个,其中 没有违约的 360个,并且对360个“没有违约”的客户进行了预测,有 340个预测成功,20个预测失败,预测成功率为:340 / 360 =94.4%
其中“违约”的有189个,也对189个“违约”的客户进行了预测,有95个预测失败, 34个预测成功,预测成功率:34 / 129 = 26.4%
总计预测成功率:(340 + 34)/ 489 = 76.5%
步骤1 的 总体预测成功率为:76.5%, 在步骤4终止后,总体预测成功率为:83.4,预测准确率逐渐提升 76.5%—79.8%—81.4%—83.4。 83.4的预测准确率,不能够算太高,只能够说还行。
〈相关帖汇总〉
[词条] 免费Logistic回归模型带目录版及相关数据下载
[学科前沿] 王济川和郭志刚的《Logistic回归模型——方法与应用》PDF电子书和案例数据
[学习资料] 美化版《Logistic回归模型——方法与应用》电子书
[学习资料] 以SPSS软件包拟合条件logistic回归模型的探索
〖On Spss〗相关的哲学——典型相关