楼主: EchoEstelle
3696 0

[数据挖掘理论与案例] 数据挖掘中的两类聚类算法和多元统计中的聚类分析分类 [推广有奖]

  • 0关注
  • 31粉丝

已卖:174份资源

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

楼主
EchoEstelle 发表于 2015-2-15 00:45:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
点集是适合于聚类的数据集,每个点都是每空间下的对象。欧式空间下的点就是实数向量。向量长度是空间维度,向量的分量是所表示点的坐标。
曼哈顿距离:每个维度上的差值之和。
Loo距离:所有维度上差值最大值。
距离必须满足的三个条件:
(1)距离非负,到自身的距离为0
(2)距离有对称性,计算点之间的距离无所谓先后
(3)遵守三角不等式|AB|+|BC|>=|AC|

两类聚类算法:
(1)层次或凝聚式算法。最开始把每个点都看成一个簇。然后簇与簇之间按照近度进行组合,接近度可以基于接近的不同含义采用不同的定义。如果进一步的组合导致非期望的结果出现,组合过程就停止。比如事先给定簇的数量,或者使用簇的紧密度测度方法,一旦两个小簇组合后得到的簇内的点分散的区域较大就停止簇的构建。
(2)第二类涉及点分配过程,即按照顺序考虑每个点,并将它分配到最合适的簇中。这个过程通常都有短暂的簇估计阶段。一些变形的算法允许临时的簇合并或分裂的过程,或者当点为离群点时允许不将该点分配到任何簇中。

数据挖掘中除了按照聚类过程,还存在两种划分聚类算法的方式:
(a)是否假定在欧式空间中聚类?算法是否在任意测度距离下都有效?本质区别在欧式空间下可以将点集合概括为质心,即所有点的平均。而在非欧空间下,没有质心的概念,就需要寻找其他簇概括的方法。
(b)算法是否假设数据足够小能够放入内存?或者说数据是否必须存放在二级存储上。比如处理大量数据的算法往往不能检查所有的点对,所以需要寻找捷径。不能将所有簇的所有点放入内存,所以将簇的概括表示放在内存中是有必要的。

聚类分析又叫群分析,是研究样品或值表进行分类的一种多元统计方法。
按聚类的方式分六类。按不同的分类对象分R型和Q型,R型对变量分类,Q型对样品分类。
(1)系统聚类法:每个对象自成一类,每次将相似的两类合并。并类过程可用谱系图表示。和层次聚类描述类似。
(2)调优法,动态聚类法:对n个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到合理。
(3)最有分割法:将所有的样品看成一类然后按某种最优准则分为两类,三类直到K类。使用于有序样品的分类,也称为有序样品的聚类法。
(4)模糊聚类法:利用模糊集理论来处理分类问题,对经济淋雨汇总具有模糊特征的两态数据或多态数据有明显分类效果。
(5)图论聚类法:利用图论中的最小支撑树的概念来处理分类问题。
(6)聚类预报法:利用聚类方法处理预报问题,可以用聚类代替回归,判别进行灾害性天气预报。

两态数据,多态数据?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:多元统计 数据挖掘 聚类分析 聚类算法 聚类方法 曼哈顿 不等式 最大值 统计 变形

我非我见我释我是我非我

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 22:38