目前在做电信的数据挖掘工作,对于一个具体问题,如C网离网分析,我们要做建模的话,首先要甄选建模字段。但是对于具体主题而言,它涉及到的字段非常的多。对于如何精简字段,可以通过 特征变量选择来甄选,但是这种效果不是很好。较好的方式是这样做的。 1.先用统计的方法,看看各个字段对目标变量的影响。
统计对于不好的字段要删减,还有头脑风暴后选一些字段进来。
2.训练集、验证集的框定。
3.模型调优
4.发布模型