一、 某移动通信公司想要预测客户流失的可能性(即客户停止使用该公司移动服务的可能性),根据历史统计,平均的顾客流失率为14.5%。该公司构建了一个逻辑回归模型,所用到的变量如下所示:(15分)
International Plan: 是否加入国际长度直播计划
VoiceMail Plan: 是否加入语音邮件服务
CSC-Hi: 客户是否经常打入客服电话,如果此数大于等于4次则标记为“高”,其他标记为“低”。
Day minutes: 连续型变量,白天打电话的平均时长(分钟)
Night minutes: 连续型变量,夜间打电话的平均式长(分钟)
International minutes: 连续型变量,国际长途通话时长(分钟)
软件输出结果如下图所示:
请回答以下问题:
a) 语音邮件用户和非语音邮件用户之间的Odds ratio是多少,并解释其意义
b) 请估计以下客户的流失可能性,并提出适当的营销策略
l 客户A:低使用率,很少打克服电话,每天白天,晚上的平均通话时长都是100分钟,不打国际长途。
l 客户B:高使用率,加入了国际长途计划,但是不是语音邮件用户,经常打客服电话(>4),每天白天、晚上的平均通话时长为300分钟,而其还有20分钟的国际长途通话
二、简述“Type”(类型)节点中,将变量的角色定义为“无”,与在“Filter”(过滤)节点中将变量过滤掉有什么不同?
三、 关于数据审核节点,请回答以下问题
a) 是否可以从数据审核节点的结果中,输出变量的概率分布图?
b) 如果要对数据进行确实插补,以下步骤如何完成
i. 选择_____面板
ii. 确定造成数据确实的原因是无效值,____,空白,还是空值
iii. 点击______列对应的单元格,制定相应的条件,选择填充方法以及填充值
iv. 对所有需要进行缺失值插补的变量进行操作后,点击_______菜单,选择______,生成______
四、看下图回答问题
图中的数据审核节点的结果是否会受到超节点”Missing Value Imputation”中对数据的操作结果的影响?
五、打开Modeler软件,找到演示程序的存放文件夹,选择”streams”文件夹,打开goodslearn.str文件。请做箱体图,展示cost变量在不同”class”中分布。
如果可以的话,第5个题目稍微弄个图吧,谢谢!