highvalue
性别
年龄
学历
婚姻
供养
住房
行业
行业类别
年收入
额度
年收入
求比我高的高人,可以回答几个就回答几个吧。。%>_<%
我需要识别高价值客户的特征,是需要用低价值客户进行对比的这个我知道,但是关于其他信息的属性我就完全摸不着头脑了
1、多元的logistic必须用哑变量么?
我用的是可视化分离,是不是不算是分类哦?
是不是分类变量度量标准必须是名义或者序号哦?字符串还是数值?
2、例如性别我只有两个分类,学历有四个分类,年龄又是连续变量,像这样不一样的数据可以放在一起么?
3、哑变量还是什么的有几个参数呢?
有书上说,每一个参数都必须要有5-10个观测量,那么就上面所说比如学历这一块,那么我就有四个参数?
4、对于多元的logistic,是具有异方差性的,我需要进行加权计算,其权数就是残差项的标准误差的倒数,那么我需要求得每个水平的频数,有没有选项直接可以进行的?
5、对于上题,如果不行的话,起码也要进行数据标准化吧?但是我的数据除了年收入、额度、供养人口之外都是做的分类,怎么进行标准化呢?
6、最后我做出的答案,各sig都是在0.9-0.3之类的,完全错了,我估计错就错在上面的理解问题上,所以,各位大人,真的拜托了!!!!