楼主: sinksought
1927 5

[原创博文] 版主的《数据挖掘与商业案例》的字符变量压缩 [推广有奖]

  • 0关注
  • 1粉丝

大专生

51%

还不是VIP/贵宾

-

威望
0
论坛币
486 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
427 点
帖子
38
精华
0
在线时间
63 小时
注册时间
2008-9-21
最后登录
2020-6-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我看到第14章 14.2.7 节关于字符变量压缩的章节。
有两个问题:


1. 我算出来的log p value 最小的聚类数是5,而书上是3. 是不是也有人和我一样?还是我哪里算错了?


2. 按我的理解,这部分code的逻辑是,先算出location*redm_flag的列联表的卡方值_Pchi_。然后以location变量每一类别的均值为目标做聚类分析,并且算出每一类别下面的Rsquared值。最后设定变量Chisquare=_Pchi_*Rsqured, 然后假设该变量服从卡方分布,算出该变量的p值,最后取具有最小的p值的聚类数。 我想请教下这里是怎么体现“使聚类后的类别之内相对于预测变量的离差平方和最小,而类别之间达到最大呢”?也就是说,为啥要构建变量Chisquare呢?
本人非统计学专业,不是很懂,望有高人赐教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:商业案例 字符变量 数据挖掘 Location Rsquare

沙发
小春1988 发表于 2012-5-17 10:38:11 |只看作者 |坛友微信交流群
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中的两组合并,然后对n-1组进行相关的卡方检验,求得新的p值(p2),若p2<p1,那么就是说合并后的n-1组的差异更显著

使用道具

藤椅
sinksought 发表于 2012-5-17 16:36:32 |只看作者 |坛友微信交流群
小春1988 发表于 2012-5-17 10:38
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中 ...
非常感谢。按我的理解,在这里,如果特定分组数的组内方差越小,那么聚类分析的Rsquared值越大,所以要构建统计量_Pchi_*Rsquared,当这个统计量显著地区别于0的时候,说明代表组间方差的_Pchi_和代表组内方差的(反比)的Rsquard都比较大,即组间方差最大和组内方差最小?

使用道具

板凳
gaotao0727 发表于 2012-5-17 21:53:23 |只看作者 |坛友微信交流群
你好,我之前也研究过那个建模过程,我在最后得到的分组(变量组合)上有些出入,希望我们可以互相交流一下,不知你是否愿意。qq:379542114
衣带渐宽终不悔,为伊消得人憔悴~~

使用道具

报纸
喊风与 在职认证  发表于 2018-1-10 17:21:41 来自手机 |只看作者 |坛友微信交流群
我算出来是4嘛,还有人在看这本书吗,求沟通

使用道具

地板
喊风与 在职认证  发表于 2018-1-11 10:30:56 来自手机 |只看作者 |坛友微信交流群
发现了一个错误,原书在代码编写时,B7写重了,并且原始数据中有19个变量

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 07:10