楼主: 明悦数据
929 0

[数据] 数据分析方法,寻找规律的第一步,聚类分析法!第2辑 [推广有奖]

  • 0关注
  • 7粉丝

等待验证会员

硕士生

4%

还不是VIP/贵宾

-

威望
0
论坛币
20 个
通用积分
5.3512
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1258 点
帖子
57
精华
0
在线时间
59 小时
注册时间
2019-7-12
最后登录
2021-4-22

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
聚类2.jpg 聚类——寻找规律的第一步6.2 聚类的因子和主成分

下面再介绍一下对变量的聚类。例如要了解客户的社会价值观,因为客户的价值观影响着他们的生活习惯、消费习惯、对品牌的看法,所以有大量的描述型变量,而这些变量有些是雷同的,例如对家庭的价值观、对职业的价值观、对旅游的价值观等。可以通过非常多的问题来诊断和判断客户对某些问题的看法,这样就可以把描述客户价值观的变量聚集为几个大类。这种聚类的方法就是R型聚类。R型聚类常用来降维。

聚类的维度之间需要减少相关性的干扰。如果把客户的购买量与客户的购买频率放到一起作为聚类变量,而客户每次的购买量与购买频率成反比关系,那么这种相关性会让这两个变量变得重复。为了让聚类更加有意义,或者反映出不同类别客户的差异性,需要审查聚类变量的相关性,当变量相关性较高时,可以采用主成分分析方法,即将不同的聚类变量合并成为相互不相关的因子。

聚类的算法决定着聚类的效率,如果数据量庞大,那么就要考虑算法的效率了。在大多数情况下,计算机的计算能力是冗余的,所以不需要考虑算法所需要的计算时间和计算量。现在计算机的处理能力已经同10年前完全不同了。

但是,如果有一百万个对象需要聚类,每一步都要对这一百万个数据进行计算,那么计算量将会非常大。如果每次都归类一个对象,在过程中不考虑有修订的过程,那么也需要上亿次的计算才能得到初步的结果,所以算法的计算量和算法的效率是在对象的数据量达到一定程度时才需要考虑的。

什么是主成分分析?主成分分析是一个统计学中的概念。我们在描述一个变量或者一个维度概念时,可以从多个侧面来描述,而这些侧面都反映同一个问题,为了将这些侧面集合为一个维度,我们把所有与这个侧面相关的要素都提取出来并汇集成为一个维度。

例如我们要了解整个国家居民的社会价值观,可以通过设置多个问题来了解,例如可以设计50个问题来了解居民的看法,而这些看法之间是有联系、有关联的,有些问题反映了某一个价值观的侧面,但又不能全面反映这个侧面,所以才有了主成分分析方法。

如下图所示,该示例中是一个问题的不完全列表。如果真的要研究人的价值观,则需要充分研究和设计,下图仅仅是一个示意性的例子,不能作为研究的方案直接使用。

0008.jpg

一个事物由多个要素构成,而每个要素和事物本身又有多个属性。对于社会价值观,可以看作是由家庭观念、事业观念、社会关系观念、私人生活观念等共同组成的,这样我们就可以从这4个侧面来了解一个人的社会价值观;而家庭观念可以由对待孩子的观念、对待父母的观念、对待生活的观念、对待夫妻关系的观念、对待家族的观念、对待财富的观念等要素构成,我们可以根据这些要素来设定相关的问题,从而了解一个人的家庭观念。

通过主成分分析,可以把几十个衡量维度(问题变量)最后减少成几个变量,从而实现了降低事物维度的作用。

主成分分析法在过去传统的市场研究中有大量的应用,通过主成分分析,我们能够了解消费者的喜好以及喜好背后的原因;我们能够研究相对复杂的社会问题,并把复杂的社会问题进行降维分析。现在是大数据时代,我们处理的数据集不再是通过抽样调查得到的数据,而是一个针对客户或者用户的“全数据集”;我们不再使用统计的方法,而是使用大数据的方法,当然,很多统计学上的算法仍然有效,仍然可以使用。

在R型聚类的基础上,我们有了少数几个衡量客户价值观的变量,每个客户在这些变量上的取值都是不同的,所以,根据对象的观测值对这些对象进行聚类的方法就是Q型聚类。有一个社交应用叫作Okcupid,其设定几百个问题来了解用户的各种价值观,然后对用户之间价值观的相似程度进行打分,再对用户进行匹配,从而让用户的交友配对的成功概率更高。其设定的几百个问题涉及对教育、家庭、子女、收入和财富、肤色、种族、吸烟、饮酒、素食等方面的看法。然后在这些基础上进行用户配对并优先匹配相似程度比较高的用户,提升用户的满意度。这就是一个Q型聚类的应用场景。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-13 19:58