最近在做一个电信项目,分析宽带离网用户的行为特征。我从数据库取了26个字段,其中客户属性有5个,产品属性有11个,消费情况(在网时间、ARPU、投诉情况等)有8个,其他字段有4个。
宽带离网用户占全部宽带用户的1%,现在为了找出离网用户的行为特征,觉得主要要用聚类和关联规则挖掘方法,因为这两种方法是探索未知事物内部规律的基本方法。但是关联规则涉及到用户是用产品组合情况,这种情况我已经用SQL语句实现了(也就是找出用户有哪些产品组合,比如有宽带+CDMA的组合、宽带+IPTV+固话组合等),所有关联规则pass掉,现在主要考虑聚类方法。问题有
1.如果用全量数据做聚类分析,得到的聚类种类都是非离网用户的行为特征(因为离网用户占1%),这就分析不出离网用户的特征。
2.如果将离网用户和非离网用户筛选出来,分别用同种模型做聚类分析,那么离网用户和非离网用户各自得到比较多的聚类数,
这些聚类数不好比较(比方说用离网用户做聚类分析得到8个类,用非离网用户做聚类分析得到7个类,非离网用户和离网用户就不好比较).
所有现在很纠结!!不知道如何去分析!!
请高人赐教!!在下不甚感激!!
现在考虑一个方法,对离网用户和非离网用户做平衡化处理,然后用处理后的数据做聚类分析,不知道这种方法是否可行??!!


雷达卡






京公网安备 11010802022788号







