数据分析方法,寻找规律的第一步,聚类分析法!第2辑-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

数据分析

>>

数据分析方法,寻找规律的第一步,聚类分析法!第2辑

数据分析方法,寻找规律的第一步,聚类分析法!第2辑

发布:明悦数据 | 分类:数据分析

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

聚类——寻找规律的第一步6.2聚类的因子和主成分下面再介绍一下对变量的聚类。例如要了解客户的社会价值观,因为客户的价值观影响着他们的生活习惯、消费习惯、对品牌的看法,所以有大量的描述型变量,而这些变量有些 ...
扫码加入统计交流群


聚类——寻找规律的第一步6.2 聚类的因子和主成分

下面再介绍一下对变量的聚类。例如要了解客户的社会价值观,因为客户的价值观影响着他们的生活习惯、消费习惯、对品牌的看法,所以有大量的描述型变量,而这些变量有些是雷同的,例如对家庭的价值观、对职业的价值观、对旅游的价值观等。可以通过非常多的问题来诊断和判断客户对某些问题的看法,这样就可以把描述客户价值观的变量聚集为几个大类。这种聚类的方法就是R型聚类。R型聚类常用来降维。

聚类的维度之间需要减少相关性的干扰。如果把客户的购买量与客户的购买频率放到一起作为聚类变量,而客户每次的购买量与购买频率成反比关系,那么这种相关性会让这两个变量变得重复。为了让聚类更加有意义,或者反映出不同类别客户的差异性,需要审查聚类变量的相关性,当变量相关性较高时,可以采用主成分分析方法,即将不同的聚类变量合并成为相互不相关的因子。

聚类的算法决定着聚类的效率,如果数据量庞大,那么就要考虑算法的效率了。在大多数情况下,计算机的计算能力是冗余的,所以不需要考虑算法所需要的计算时间和计算量。现在计算机的处理能力已经同10年前完全不同了。

但是,如果有一百万个对象需要聚类,每一步都要对这一百万个数据进行计算,那么计算量将会非常大。如果每次都归类一个对象,在过程中不考虑有修订的过程,那么也需要上亿次的计算才能得到初步的结果,所以算法的计算量和算法的效率是在对象的数据量达到一定程度时才需要考虑的。

什么是主成分分析?主成分分析是一个统计学中的概念。我们在描述一个变量或者一个维度概念时,可以从多个侧面来描述,而这些侧面都反映同一个问题,为了将这些侧面集合为一个维度,我们把所有与这个侧面相关的要素都提取出来并汇集成为一个维度。

例如我们要了解整个国家居民的社会价值观,可以通过设置多个问题来了解,例如可以设计50个问题来了解居民的看法,而这些看法之间是有联系、有关联的,有些问题反映了某一个价值观的侧面,但又不能全面反映这个侧面,所以才有了主成分分析方法。

如下图所示,该示例中是一个问题的不完全列表。如果真的要研究人的价值观,则需要充分研究和设计,下图仅仅是一个示意性的例子,不能作为研究的方案直接使用。

一个事物由多个要素构成,而每个要素和事物本身又有多个属性。对于社会价值观,可以看作是由家庭观念、事业观念、社会关系观念、私人生活观念等共同组成的,这样我们就可以从这4个侧面来了解一个人的社会价值观;而家庭观念可以由对待孩子的观念、对待父母的观念、对待生活的观念、对待夫妻关系的观念、对待家族的观念、对待财富的观念等要素构成,我们可以根据这些要素来设定相关的问题,从而了解一个人的家庭观念。

通过主成分分析,可以把几十个衡量维度(问题变量)最后减少成几个变量,从而实现了降低事物维度的作用。

主成分分析法在过去传统的市场研究中有大量的应用,通过主成分分析,我们能够了解消费者的喜好以及喜好背后的原因;我们能够研究相对复杂的社会问题,并把复杂的社会问题进行降维分析。现在是大数据时代,我们处理的数据集不再是通过抽样调查得到的数据,而是一个针对客户或者用户的“全数据集”;我们不再使用统计的方法,而是使用大数据的方法,当然,很多统计学上的算法仍然有效,仍然可以使用。

在R型聚类的基础上,我们有了少数几个衡量客户价值观的变量,每个客户在这些变量上的取值都是不同的,所以,根据对象的观测值对这些对象进行聚类的方法就是Q型聚类。有一个社交应用叫作Okcupid,其设定几百个问题来了解用户的各种价值观,然后对用户之间价值观的相似程度进行打分,再对用户进行匹配,从而让用户的交友配对的成功概率更高。其设定的几百个问题涉及对教育、家庭、子女、收入和财富、肤色、种族、吸烟、饮酒、素食等方面的看法。然后在这些基础上进行用户配对并优先匹配相似程度比较高的用户,提升用户的满意度。这就是一个Q型聚类的应用场景。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-8234235-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。