楼主: sinksought
1204 5

[原创博文] 版主的《数据挖掘与商业案例》的字符变量压缩 [推广有奖]

  • 0关注
  • 1粉丝

大专生

45%

还不是VIP/贵宾

-

威望
0
论坛币
518 个
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
427 点
帖子
38
精华
0
在线时间
59 小时
注册时间
2008-9-21
最后登录
2017-9-6

sinksought 发表于 2012-5-13 16:12:07 |显示全部楼层
本帖最后由 wanghaidong918 于 2013-1-13 09:29 编辑

我看到第14章 14.2.7 节关于字符变量压缩的章节。
有两个问题:


1. 我算出来的log p value 最小的聚类数是5,而书上是3. 是不是也有人和我一样?还是我哪里算错了?


2. 按我的理解,这部分code的逻辑是,先算出location*redm_flag的列联表的卡方值_Pchi_。然后以location变量每一类别的均值为目标做聚类分析,并且算出每一类别下面的Rsquared值。最后设定变量Chisquare=_Pchi_*Rsqured, 然后假设该变量服从卡方分布,算出该变量的p值,最后取具有最小的p值的聚类数。 我想请教下这里是怎么体现“使聚类后的类别之内相对于预测变量的离差平方和最小,而类别之间达到最大呢”?也就是说,为啥要构建变量Chisquare呢?
本人非统计学专业,不是很懂,望有高人赐教。

stata SPSS
小春1988 发表于 2012-5-17 10:38:11 |显示全部楼层
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中的两组合并,然后对n-1组进行相关的卡方检验,求得新的p值(p2),若p2<p1,那么就是说合并后的n-1组的差异更显著
回复

使用道具 举报

sinksought 发表于 2012-5-17 16:36:32 |显示全部楼层
本帖最后由 sinksought 于 2012-5-17 16:36 编辑
小春1988 发表于 2012-5-17 10:38
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中 ...
非常感谢。按我的理解,在这里,如果特定分组数的组内方差越小,那么聚类分析的Rsquared值越大,所以要构建统计量_Pchi_*Rsquared,当这个统计量显著地区别于0的时候,说明代表组间方差的_Pchi_和代表组内方差的(反比)的Rsquard都比较大,即组间方差最大和组内方差最小?
回复

使用道具 举报

gaotao0727 发表于 2012-5-17 21:53:23 |显示全部楼层
你好,我之前也研究过那个建模过程,我在最后得到的分组(变量组合)上有些出入,希望我们可以互相交流一下,不知你是否愿意。qq:379542114
衣带渐宽终不悔,为伊消得人憔悴~~
回复

使用道具 举报

喊风与 在职认证  发表于 2018-1-10 17:21:41 来自手机 |显示全部楼层
我算出来是4嘛,还有人在看这本书吗,求沟通
回复

使用道具 举报

喊风与 在职认证  发表于 2018-1-11 10:30:56 来自手机 |显示全部楼层
发现了一个错误,原书在代码编写时,B7写重了,并且原始数据中有19个变量
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

GMT+8, 2018-4-25 08:46