某运营商希望通过当前的用户数据来进行用户再细分,对当前用户制定新的资费策略和产品策略
这个是宽带数据卡的记录,现在有用户上网的记录,可以获得用户每次上线下线的时间,下载和上传流量,用户的资费包,用户属的局端设备。
平均每天用户大概有5~8条上下线数据,大概有2万用户左右,现在已经获得一个月的记录,总记录量在300万的样子。
如果直接按照用户平均每天上下载流量聚类的话,感觉太简单了,大家帮我想个思路。
下面是我自己的思路:
对数据进行转换,变成每用户每天的记录(减少处理记录量),包括每天下载流量,每天上线次数,每天上传流量,每天上线时长,用户资费,每天切换BTS数量
然后对每天下载流量,每天上线次数,每天上传流量,每天上线时长,用户资费和每天切换BTS数量 进行聚类。
但是这些数据可能存在相关性,我是否需要将这些数据先进行主成分因子转换之后用主成分因子聚类?
另外问一下,Clementine 12 只有 k-means 和kohonen还有两步聚类几个模型,像很多其他的变种聚类模型,如何使用?