楼主: GraphPad_China
176 0

GraphPad Prism K-means聚类 (2) [推广有奖]

  • 0关注
  • 2粉丝

讲师

65%

还不是VIP/贵宾

-

威望
0
论坛币
539 个
通用积分
941.5280
学术水平
3 点
热心指数
2 点
信用等级
0 点
经验
12237 点
帖子
215
精华
0
在线时间
341 小时
注册时间
2020-4-26
最后登录
2026-3-2

楼主
GraphPad_China 在职认证  发表于 10 小时前 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

K-means聚类的结果

Prism中的K-均值聚类分析会生成多种不同的结果表格,并将其作为结果工作表的选项卡展示。执行该分析时,其中两个选项卡会始终显示,而若在分析参数对话框中选择了对应选项,其余许多表格则可选择性生成报告。

主要结果

表格结果

该工作表提供分析的总体概述,包括实验设计、输入数据的重要信息以及聚类结果的汇总。工作表内容包括:


  • 所分析的输入数据表名称
[size=14.6667px]

  • K-均值汇总表,包含:


  • 算法尝试拟合数据的总聚类数
  • 针对给定总聚类数计算的总簇内平方和(WCSS)。注意:用于分组数据的聚类数越多,WCSS值就越小。当只有1个聚类(所有数据分配至同一聚类)时,WCSS等于总平方和;随着聚类数增加,该值会持续减小,直至聚类数等于观测值数量时,WCSS恰好为0
  • 总变异百分比也可理解为未解释变异的比例(或百分比)。该值代表模型拟合后仍存在于聚类内的总变异占比,其计算方式为WCSS除以数据的总平方和。总变异百分比越高,说明总方差中有很大一部分仍存在于聚类内部;直观来看,这表示每个聚类内的方差较大,聚类中的数据分布较为分散,即聚类未能很好地将数据组织未紧凑的组
  • 未解释方差百分比是上述总方差百分比的补数,该值代表模型“解释”的数据变异相对量。若仅用1个聚类拟合数据,“簇内平方和(WCSS)”就等于总平方和,这意味着单一聚类的模型对理解数据方差没有帮助;若用2个聚类,WCSS会比单一聚类时更小,其减小的幅度可粗略估计模型解释的方差量,计算公式为:%Var=1-(WCSS/总平方和)。解释方差百分比越高,说明大部分方差存在于聚类之间而非聚类内部,直观来看,这表明聚类分析在将数据组织为紧凑组方面表现不错
  • 轮廓系数:指将观测值聚为指定聚类数后,所有观测值的平均轮廓系数。其核心概念是:某观测值的轮廓系数代表该观测值与所属聚类内其他点的接近(或远离)程度,以及与次近聚类内点的远离(或接近)程度。该值的取值范围为-1到1,接近1表明该观测值与同聚类内其他观测值匹配度高。找到使轮廓系数达到最大值的聚类数,是确定数据分组最佳聚类数的方法之一(众多方法中的一种),这些数值会以图形形式展示在轮廓图中
  • 间隙统计量:仅当在K-均值聚类分析中选择了显示间隙图的选项时,才会展示该值。无需深入其计算细节,间隙统计量代表您的数据在划分为指定聚类数时,相较于相同数值范围的随机模拟数据的分组效果优劣。若数据中确实存在分组结构,那么数据的聚类效果应优于随机生成数据;若数据的聚类效果并不优于随机数据,则说明数据中可能不存在固有分组。该指标可取任意值,但实际应用中通常仅为零或正数:值为零表示输入数据在指定聚类数下的分组效果与随机生成数据相当;正值表示输入数据在指定聚类数下的分组效果优于随机生成数据,且该指标的量值通常可作为数据聚类紧密程度的衡量标准
  • 迭代次数:表示所选的K-均值算法为达到收敛所需的循环次数
  • 算法:仅报告分析所使用的算法,默认算法为Hartigan-Wong算法(前提是分析选项对话框中选择了“确定最佳聚类数”选项)
[size=14.6667px]

  • (可选)“最佳聚类数”模块:您可在此处找到通过共识法选择最佳聚类数的汇总信息,包括:


  • 由共识法确定的最佳聚类数
  • 所用指标/方法的列表
  • 每种方法确定的最佳聚类数
  • 给定最佳聚类数时,各方法对应的指标值

[size=14.6667px]

  • 输入数据汇总,包括:


  • 变量数量(列数)
  • 输入表格的总行数
  • 跳过的行数(因缺失数据)
  • 分析中使用的观测值数量(总行数-跳过的行数)

[size=14.6667px]

聚类后数据

K-均值聚类的这份结果工作表会还原完整的输入数据表,并为您指定的每个聚类数新增对应数量的变量(列)。例如,若您指定对输入数据聚类时使用的聚类数最小值为3、最大值为6,这份聚类后数据输出工作表将新增四列(标题为“3” “4” “5” “6”)。列标题代表数据分组时所用的聚类总数,每列的数值则代表对应观测值(行)被分配到的聚类编号。

请注意,该工作表包含输入数据表中的所有变量,无论这些变量是否在K-均值聚类分析中被使用;同时,无论分析过程中是否对数据应用了标度化方法,该工作表均会报告输入数据表的原始数值。


可选结果

聚类详情

这份可选的输出表格提供了与分析中所用标准化变量相关的聚类信息,包括聚类中心的位置(对应各标准化变量的数值)、各变量的平方和,以及属于该聚类的观测值总数。需注意,可在分析参数对话框的“选项”选项卡中,为Prism的数据分析聚类数量设定范围。若以此方式定义了聚类数量范围,Prism将对范围内的每个聚类数重复执行分析;本工作表中的结果会报告每次重复分析的聚类详情,并通过“聚类数3”这类标题,标注该版本分析所采用的聚类数量。


[size=14.6667px]

每行数据到其聚类中心的距离

K-均值聚类的最终目标是将输入数据的每个观测值(行)分配至其“最近的”聚类。距离的计算方式有多种,但无论选用何种度量标准,K-均值聚类的结果都是将每个观测值(行)分配到单个聚类,且该聚类的中心可用于定义其位置。

此结果选项卡会报告分析中所用的标准化变量(列),并针对数据分组时指定的每个不同聚类数,在这些列后追加一列。例如,若分析尝试将数据分别划分为3、4、5或6个聚类,此表格会追加四个额外变量列。这些列的数值代表观测值(行)到其分配聚类中心的距离。聚类分配情况可在结果的聚类后数据选项卡中查看,而各聚类中心的位置可在结果的聚类详情选项卡中查看。

需注意,聚类内平方和(WCSS)是一种方差度量指标,其计算会用到这些距离值。对于给定聚类,WCSS等于该聚类中所有数据点到聚类中心的距离的平方和。WCSS值越小的聚类,紧凑性越强(分配的点更靠近聚类中心);而WCSS值越大的聚类,离散程度越高。


伽马指数

任何K-均值聚类分析的第一步,都是定义聚类的初始位置。一旦确定这些位置,K-均值算法会反复将观测值分配至各个聚类,并更新聚类中心的位置。此过程会持续到没有观测值改变其聚类分配为止。尽管执行K-均值聚类的不同算法在迭代执行该过程的方式上存在差异,但它们都需要先为聚类分配指定位置,才能开展运算。


为聚类分配初始位置的这一过程,恰如其分地被称为初始化。无论在分析参数对话框的“选项”选项卡中选择何种算法,Prism均采用K-均值++初始化方法。此结果选项卡会提供每个聚类中心的初始位置,这些位置以分析中所用各变量的标准化数值呈现。需注意,初始聚类中心的位置取决于分析所使用的随机种子。默认设置为使用自动随机种子,这意味着即便您对同一数据采用完全相同的参数执行两次不同的分析,也可能因初始聚类位置大概率不同,而得到略有差异的结果。


标准化数据


此结果选项卡展示用于K-均值聚类分析的标准化数据。需注意,若未应用任何标准化方法(即分析使用原始数据),则无法在分析参数对话框的“输出”选项卡中选择该可选结果,且此结果选项卡也不会显示。


聚类度量指标

当在K-均值聚类分析参数对话框中选中“确定最佳聚类数”选项时,Prism会采用17种不同的统计方法评估多个聚类方案,以确定最佳聚类数量。每种方法都会运用专属的度量指标评估聚类方案的质量,此选项卡呈现的是这些评估的综合结果。


该选项卡包含一个网格,展示了17种统计方法针对每个测试聚类数计算出的度量值。表格的列代表不同的评估方法,行则代表每个被测试的聚类数(基于您在分析选项中设定的最小值和最大值)。


理解聚类评估方法

用于评估聚类质量的17种方法可大致归为几类度量指标:

内部验证指标 – 仅基于数据和聚类结果评估聚类质量,无需外部参考。这类方法包括Calinski-Harabasz指数(用于衡量聚类间方差与聚类内方差的比值)、Davies-Bouldin指数(用于评估聚类的分离度和紧凑度),以及轮廓系数(用于衡量每个数据点与其所属聚类的相似度,相较于其他聚类的对比情况)。

间隙统计法 – 将数据的聚类结构与随机数据的预期聚类结构进行比较,助力识别有意义的聚类模式。

几何与基于距离的方法 – 基于数据点与聚类中心之间的空间关系评估聚类效果,包含Ball-Hall、Dunn和TraceW等指标。


信息论方法 – 运用统计度量指标评估不同聚类方案所揭示的信息含量与结构。


结果解读

网格中的每个单元格,展示了对应方法针对特定聚类数计算得出的度量值。不同方法采用的标度和优化方向不同。部分方法在数值最大化时达到最佳,而另一些方法则在数值最小化时达到最佳。


对于每种方法,Prism会依据该方法的优化标准,确定能产生“最佳”度量值的聚类数。表格结果中显示的最佳聚类数推荐值,是所有方法的共识结果,即被各独立方法最频繁认定为最佳的聚类数。


如何利用这些信息?


这份详细的分析结果可帮助您实现以下目标:


  • 检验共识强度:若大多数方法认同同一个最佳聚类数,说明共识性强;若方法对两到三个不同聚类数的判定存在分歧,最佳选择则可能不够明确
[size=14.6667px]

  • 理解方法敏感性:部分方法可能对特定数据结构的敏感度高于其他方法,若您选择推翻共识推荐值,这一点可辅助决策
[size=14.6667px]

  • 验证聚类决策:在展示聚类结果时,这份综合评估可为您选定的聚类数提供统计学依据



[size=14.6667px]

各测试聚类数对应的聚类分配情况,可在结果的聚类后数据选项卡中查看;而聚类中心的详细信息,可在结果的聚类详情选项卡中查看。


K-means聚类分析核对清单

分析的假设条件

√球形聚类

K-均值聚类假设聚类的形状为球形。这意味着,几何形状不同的聚类可能无法被K-均值聚类准确检测或识别。

√聚类的方差相等

该假设表明,每个聚类中心周围的数据点分布情况大致相同。这一假设带来的结果是,若其他聚类包含紧密聚集的数据点,K-均值算法可能会“遗漏”那些分布密度较低的聚类。

√聚类规模均等


该分析假设每个聚类包含的数据点数量大致相同。当这一假设不成立时,K-均值聚类可能无法识别出原本应清晰呈现的聚类。下方的图示展示了一个案例:其中一个聚类包含的数据点数量是另一个的10倍。由于“每个聚类应包含相同数量观测值”的假设,当K-均值算法在k=2的条件下运行时,识别出的聚类可能在逻辑上并不合理。


[size=14.6667px]

7.png


[size=14.6667px]

√独立变量

在执行K-均值聚类分析时,这一假设之所以重要,存在多种原因。其一,若变量高度相关(非独立),那么聚类中心的确定位置可能会出现偏差,相关变量的方向会被赋予更多“权重”。此外,如前文所述,该分析假设聚类在多维空间中呈球形。当多个变量存在相关性时,数据中聚类的实际形状可能更接近椭圆形;但由于K-均值算法假设聚类为球形,在此类情况下聚类结果可能会不理想。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:k-means聚类 GraphPad k-means GRAPH Prism

科研统计绘图工具,助你发现数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-3-2 22:03