我看到第14章 14.2.7 节关于字符变量压缩的章节。
有两个问题:
1. 我算出来的log p value 最小的聚类数是5,而书上是3. 是不是也有人和我一样?还是我哪里算错了?
2. 按我的理解,这部分code的逻辑是,先算出location*redm_flag的列联表的卡方值_Pchi_。然后以location变量每一类别的均值为目标做聚类分析,并且算出每一类别下面的Rsquared值。最后设定变量Chisquare=_Pchi_*Rsqured, 然后假设该变量服从卡方分布,算出该变量的p值,最后取具有最小的p值的聚类数。 我想请教下这里是怎么体现“使聚类后的类别之内相对于预测变量的离差平方和最小,而类别之间达到最大呢”?也就是说,为啥要构建变量Chisquare呢?
本人非统计学专业,不是很懂,望有高人赐教。