楼主: 人脉引爆点
4569 1

[数据挖掘新闻] 什么是数据挖掘聚类分析? [推广有奖]

编辑管理员

已卖:148份资源

学术权威

30%

还不是VIP/贵宾

-

TA的文库  其他...

大数据 |SAS/SPSS数据统计分析师

威望
2
论坛币
1220 个
通用积分
8137.3571
学术水平
360 点
热心指数
388 点
信用等级
316 点
经验
112093 点
帖子
921
精华
5
在线时间
8956 小时
注册时间
2012-3-31
最后登录
2025-11-17

楼主
人脉引爆点 在职认证  发表于 2012-6-6 10:40:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据挖掘_聚类分析

聚类分析(cluster analysis),是一组将研究对象分为相对同质的群组(clusters)的数据挖掘技术。聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。k-means 算法工作过程如下:

1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

3)重新计算每个(有变化)聚类的均值(中心对象);

4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛),此时k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的。

缺点:K需要事先给定,但非常难以选定;初始聚类中心的选择对聚类结果有较大的影响。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 数据挖掘 Partitioning Hierarchical Model-Based 数据挖掘 数据挖掘技术 数据挖掘算法

沙发
花花一只妖 发表于 2012-6-18 21:02:14
可以推荐下优秀的聚类工具吗?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 21:49