求助:
情况如下;在某省给移动做一个短信砸蛋活动,就是对于此地在网两个月或者以上的用户当月的点对点短信到达值比前两月的平均值每多X条,就会给用户下发告知短信(告知会按照一定的规则,如今天给用户告知了,不管用户来不来砸蛋可能都要隔几天再告知)我现在的目的是想建立LOGISTIC模型来预测对于有机会的用户来砸蛋的概率。
活动以一个月为周期,从当月2号到下月的1号
我现在有这样的数据,一个周期内所有有机会的用户(共40多万,其中只有部分参与),其中部分用户字段年龄,性别字段不详(差不多除开不详字段还有20万数据)但是从年龄字段中发现异常值(如大于100,或者为负数)记除开这些异常值的数据为(XX样本)
现在我要做如下分析:
1.首先描述性统计
2.列联表分析
3.建立logistic模型
请:怎么选样本?
1.描述性统计样本是选上面的XX样本还是从XX样本中抽样?
2.列联表分析样本是选上面的XX样本还是从XX样本中抽样?
3.logisticl怎样选呢?
我觉得2与3有关系,从2(列联表分析)来判断因素是否对砸蛋有无关系而来作为第三步建模的变量