请选择 进入手机版 | 继续访问电脑版
楼主: flutter88
4011 21

[问答] logistic回归模型的奇怪事情 [推广有奖]

flutter88 发表于 2014-12-4 17:09:59 |显示全部楼层 |坛友微信交流群
ziyenano 发表于 2014-12-4 16:59
为什么没有预测效果,二分类logistic回归最终的结果不就是预测P(Y=1)或者P(Y=0)
一个模型不是说给一个P就OK了,还要看看这个P准不准啊

使用道具

ziyenano 发表于 2014-12-4 17:19:45 |显示全部楼层 |坛友微信交流群
flutter88 发表于 2014-12-4 17:06
全部是1有什么效果?
这里并不是最终预测值全是1,只是给出了预测值等于1的概率,response value并不是预测结果。
最终输出0还是1都是人为确定的,本质还是P(Y=1)这个概率,
很多时候,会默认P(Y=1)>0.5输出1,<0.5则输出0,
但是很多时候这样的结果是没有意义的,好比这里的建模数据,b=1的记录占比很小,
这样的数据建模,导致最终预测结果P(Y=1)的值基本很小。
显然考虑现实情况,可以认为 P(Y=1)>0.2(或者其他值)为1,反之为0.

使用道具

ziyenano 发表于 2014-12-4 17:26:26 |显示全部楼层 |坛友微信交流群
flutter88 发表于 2014-12-4 17:09
一个模型不是说给一个P就OK了,还要看看这个P准不准啊
基于准不准的问题,
如果数据本身是0和1的占比差不多的,混淆矩阵是个判别方法,
如果1占比很小的的数据类型,混淆矩阵就没有意义了,我全预测成0,显然
正确率很高,这时候通常选择提升或者增益的概念来表示正确性,
当然ROC图任何时候都可以,
楼主可以去看看资料。

使用道具

flutter88 发表于 2014-12-4 17:44:17 |显示全部楼层 |坛友微信交流群
ziyenano 发表于 2014-12-4 17:26
基于准不准的问题,
如果数据本身是0和1的占比差不多的,混淆矩阵是个判别方法,
如果1占比很小的的数据 ...
说的就是这个问题,看ROC曲线几乎没有任何提升。
而且也试过抽样等方法,没有什么效果。
说明这个模型几乎没有任何的区分度。

使用道具

ziyenano 发表于 2014-12-4 17:53:32 |显示全部楼层 |坛友微信交流群
flutter88 发表于 2014-12-4 17:44
说的就是这个问题,看ROC曲线几乎没有任何提升。
而且也试过抽样等方法,没有什么效果。
说明这个模型几 ...
这样的薄靶数据现实中很多,用提升或者增益指标来解释模型的准确性
比较合适,当然不能指着一个指标就能有好的预测效果。
楼主的疑问是什么,结果中哪个指标显示了输出结果全为1

使用道具

flutter88 发表于 2014-12-5 10:00:46 |显示全部楼层 |坛友微信交流群
ziyenano 发表于 2014-12-4 17:53
这样的薄靶数据现实中很多,用提升或者增益指标来解释模型的准确性
比较合适,当然不能指着一个指标就能 ...
你可以用这个数据集跑一下,就知道很神奇了

使用道具

ziyenano 发表于 2014-12-5 11:12:40 |显示全部楼层 |坛友微信交流群
flutter88 发表于 2014-12-5 10:00
你可以用这个数据集跑一下,就知道很神奇了
没有找到你说的结果,如果给出的话,那也全是0,不会是1。
proc logistic data =click outest=aa descending;
model b=a ;
score data=click out=pred;/*0.5为分割点*/
run ;

使用道具

jingju11 发表于 2014-12-5 13:13:00 |显示全部楼层 |坛友微信交流群
flutter88 发表于 2014-12-4 17:09
一个模型不是说给一个P就OK了,还要看看这个P准不准啊
你的数据包含20万个观察。模型只给出10个不同的预测概率。x 每增加0。1,or=2.举一个例子。吸烟致癌。周所周知。但是,如果我告诉你这个人吸烟,让你猜猜他是否有肺癌。你肯定说没有。为什么?肺癌的概率非常低。但是,你可以说,他罹患肺癌的概率要比非吸烟者要大。如果说医院资金有限,只能对一部分做体检。那么他也许就是其中之一。从模型上,虽然他的肺癌概率有0.1%,但是普通人只有0.01%,两者的最佳猜测都为没有癌症。也就是说,虽然你的模型无法准确预测是否某人患有癌症,但是对医院却有很大的指导意义。如果医院要免费体检100个人,它也许会按照p值从大到小排列,取前100个人。同时你也指出了二分变量的局限性-非此即彼。比如说。 我要设计一个试验来检测某种药物是否有效。我的目标测量指标往往不是病人是否痊愈,而是某个更加细微的指标。比如某中危险蛋白的量值是否降低。所以,y值虽然呈现为是和否。但是是否之间应该隐含过渡性。而这种过渡性可以从p来得到某中程度上的衡量。
京剧

使用道具

flutter88 发表于 2015-9-14 17:17:12 |显示全部楼层 |坛友微信交流群
..............................
1907年走势.png

使用道具

挞挞 发表于 2015-12-1 11:37:30 |显示全部楼层 |坛友微信交流群
我想看看data,直接用b变量去拟合0 1 我也很好奇什么数据可以这么做

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-18 11:50