[每天一个数据分析师] 浅谈聚类分析的几种算法 [推广有奖]

4关注
124
粉丝

管理员

已卖：189份资源

泰斗

6%

还不是VIP/贵宾

-

0%

威望: 3 级
论坛币: 132838 个
通用积分: 13735.6772
学术水平: 278 点
热心指数: 286 点
信用等级: 253 点
经验: 232931 点
帖子: 7240
精华: 19
在线时间: 4443 小时
注册时间: 2019-9-13
最后登录: 2026-4-3

楼主

CDA网校

发表于 2022-7-13 17:32:03 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，其目的是在相似的基础上收集数据来分类。随着数据的发展，聚类技术也得到了发展。聚类分析简单直观，在现在的数据挖掘分析中被普遍应用。比如医疗行业经常使用聚类分析方法区分出高收益病种，为医疗资源的合理配置、医院选定特色专科，调整发展战略提供决策依据等。

作为数据挖掘中很活跃的一个研究领域，聚类分析有多种算法。传统的聚类算法可以被分为五类：划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

【K-means算法】

首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

【K-pototypes算法】

K-pototypes算法结合了K-means方法和根据K-means方法改进的能处理符号属性的K-modes方法，同K-means方法比，K-pototypes算法能够处理符号属性。

【Fuzzy算法】

首先建立Fuzzy相似矩阵，然后对其进行聚类。目前所见一般分为两种。

【CLARANS算法】（划分方法）

CLARANS算法即随机搜索聚类算法，是一种分割聚类办法。它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Max neighbor个的一些邻接点，假如找到一个比它更好的邻接点，则把它移入该邻接点，否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量，直到找到的局部最小量书目达到用户要求为止。

【BIRCH算法】（层次方法）

核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径以及类内、类间距离的运算。

【CURE算法】（层次方法）

CURE算法即使用代表点的聚类方法。该算法先把每个数据点看成一类，然后合并距离最近的类直到类个数为所要求的个数为止。CURE算法将传统对类的表示方法进行了改进，回避了用所有点或用中心和半径来表示一个类，而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点，并将这些点乘以一个适当的收缩因子，使它们更靠近类的中心点。将一个类用代表点表示，使类的外延可以向非球形的形状扩展将其表达。

【DBSCAN算法】（基于密度的方法）

利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

相关帖子DA内容精选