楼主: 时光永痕
1779 0

[数据挖掘新闻] 监督和无监督机器学习评估指标快速指南 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

3%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-12-22 10:01:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
监督和无监督机器学习评估指标快速指南
机器学习是关于使用历史数据构建预测模型以对没有特定问题答案的新数据进行预测。由于输出是概率性的,因此评估您的预测成为至关重要的一步。您可以通过多种方法来判断机器学习模型的性能,并且大多数方法都集中在最小化实际实体与预测实体之间的误差上,因为您希望您的预测越来越准确。
监督学习算法(其中具有有关标签的信息,如分类,回归问题)和无监督学习算法(其中诸如无分类信息的标签信息)根据其输出具有不同的评估指标。在本文中,您将探索一些针对分类,回归和聚类问题的最受欢迎的评估指标。更具体地说,您将:
–了解与混淆矩阵有关的所有术语以及从中得出的指标
–了解回归问题的评估指标,例如RMSE,MAE,R-Squared等
–学习聚类问题的轮廓系数,邓恩指数等指标
本教程中描述的所有评估指标都有一个实现,可以作为库,软件包在不同平台(如Python,R,Spark等)上使用,但是,本教程仅关注这些指标的含义,在使用之前应了解这些指标他们。如果您需要快速修订机器学习中的重要指标,可以将本指南用作快速参考。
让我们开始吧。
分类绩效评估指标
机器学习问题最常见的形式也许是分类问题。分类问题将观察值/样本放入两个或多个类别/标签之一。本质上,您正在尝试学习一种数学函数,该函数可以将输入变量(X)分类为离散输出变量(Y)。输出变量称为类/标签。例如,将电子邮件分类为垃圾邮件还是非垃圾邮件是一个分类问题。
当您处理两个类时,这是一个二进制分类问题,而当有两个以上类时,则成为一个多类分类问题。有时,观察值也可以分配多个类别,这是一个多标签分类问题。要评估分类机器学习模型,您必须首先了解什么是混淆矩阵。
混淆矩阵
混淆矩阵是一个表,用于描述在真实值已知(有监督)的一组观察值上分类模型或分类器的性能。矩阵的每一行代表实际类别中的实例,而每一列代表预测类别中的实例(反之亦然)。例如,这是一个虚拟的混淆矩阵,用于二进制分类问题,预测分类器的是或否(1或0):
评估指标-混淆矩阵
让我们尝试在一个示例的上下文中理解此矩阵。想象一下,您正在尝试建立一个模型来预测读者是否会对阅读本文感兴趣,并且假设您正试图对总共100位潜在读者进行分类。在这100名读者中,分类器的预测结果为“是” 60次,“否” 40次。实际上,最终有55位读者阅读了这篇文章,因此被标记为“是”,而有45位读者没有阅读,因此被标记为“否”。
根据给定的信息,可以定义以下术语:
真实肯定(TP):在这些情况下,您预测为“是”(读者将阅读文章),并被实际标记为“是”(读者实际上已阅读文章)。
真实否定词(TN):您预测为否(读者将不会阅读文章),并且它们实际上被标记为否(读者未阅读文章)。
误报(FP):您预测为是,但它们被标记为否(也称为I型错误)
假阴性(FN):您预测为否,但实际上将其标记为是(也称为II型错误)
准确性:也许最常用的度量标准是准确性。数学上定义为(TP + TN)/总计。它告诉您分类器在做出预测中正确的频率。在此示例中,准确性= 50 + 35/100 = 0.85。通常,不建议在类数据集不平衡的情况下根据准确性来判断模型,因为仅通过预测所有观察值作为主要类即可获得较高的准确性。
精度:它回答了以下问题:分类器预测为是时,它多久正确一次?数学计算为TP /预测为是。在此示例中,精度= 50 /(50 + 10)= 0.83。
回想一下:它回答了以下问题:当实际上为是时,分类器多久预测一次是?数学计算为TP /实际是。在此示例中,召回率= 50 /(50 + 5)= 0.90。
误报率(FPR):它回答了以下问题:当实际上不是时,分类器多久预测一次是?用FP /实际编号进行数学计算。在此示例中,精度= 10 /(35 + 10)= 0.22。
F1得分:这是召回率和精度的谐波平均值。数学计算为(2 x精度x调用率)/(精度+调用率)。F1分数也有一种通用形式,称为F-beta分数,您可以根据需要提供权重以进行精确度和召回率。在此示例中,F1分数= 2×0.83×0.9 /(0.83 + 0.9)= 0.86
当然,您可以选择其他各种指标来判断模型的性能,例如分类错误率,特异性等,但它们与以上定义的指标或多或少相关,可以与它们结合使用。尝试使事情保持简单,不要与这些术语混淆,最重要的是,尝试理解度量的含义,而不要塞满它们。
接收机操作员特征曲线
每当您应用分类器来针对观察分配标签时,分类器都会针对观察而不是针对标签生成概率。概率表示您可以多大程度地自信地为观察分配标签,然后将其与预设阈值进行比较后,再为其分配标签。如果将阈值放宽到较低的值,则测试观察结果中将有更多的读者被标记为“是”。控制阈值取决于用例。例如,在广告行业中,您的目标是捕获将最多点击广告的人数。因此,您可以在预测时放宽阈值,以便可以定位更多目标对象。
ROC或接收器操作员特征曲线是每种可能的分类阈值的召回率(正确率)(y轴)与错误率(x轴)的关系图。
之所以要检查ROC曲线以评估分类器而不是诸如精度之类的简单指标,是因为ROC曲线将所有可能的分类阈值可视化,而准确性仅表示单个阈值的性能。典型的ROC曲线如下图所示:
大鹏曲线
您可能想尝试建立一个模型,该模型产生的ROC曲线接近左上角,或者换句话说,其曲线下面积(AUC)最大。另外,如果您的AUC小于0.5,即ROC曲线低于红线,则您的模型甚至比基于随机猜测的模型还要差。
了解ROC曲线之前要了解的一件事是阈值的概念。
上面讨论的所有度量标准也可以通过使用“一对多”方法扩展到多类分类问题,在该方法中,您将除一个类之外的所有其他类归为一类,并重复此过程。
精确调用(PR)曲线
另一种用于评估分类器性能的曲线是ROC曲线的替代方案,是精确召回曲线(PRC),尤其是在类分配不平衡的情况下。它是精度和召回率之间的曲线,通常看起来像:
评估指标-精度与召回率
好的分类器会产生接近右上角的PR曲线。
对数损失
对数损失或对数损失,告诉您模型在为观察分配类别时的信心。如果使用对数损失作为性能指标,则必须为所有样本的每个类别分配一个概率。对于任何给定的问题,较低的对数损失值意味着更好的预测。关于Log-loss的要注意的重要一点是,它严重惩罚了对错误分类有信心的分类器。例如,如果您预测阅读这篇文章的读者的概率为0.8(1),那么您的对数损失将很小,因为您的模型预测的类别为正数的可能性很高(1)。但是,如果您对阅读本文(1)的读者预测的概率较低,例如0.1,那么对数损失会更大。
假设有N个样本属于M个类别,则对数损耗的计算如下:
日志损失
哪里,
??????指示是否样品我属于类别?或不
??????表示样本i属于类别j的概率
对数损失的范围是[0,∞)。
回归绩效评估指标
回归问题中的另一种常见的机器学习问题。在这里,您预测的是连续值,而不是预测观察值的离散标签/类。例如,预测房屋的售价是一个回归问题。回归问题可以是线性或非线性回归问题。
以下指标最常用于评估回归模型:
平均绝对误差(MAE)
平均绝对误差是原始值和预测值之差的平均值。它为您提供了预测与实际输出之间的距离的度量,显然,您希望将其最小化。但是,由于只采用绝对值,因此它不能使您了解错误的方向。与RMSE相比,它不会对大型错误造成太大的损失。在数学上,它表示为:
评估指标-MAE
哪里,
n是观察数
????是样本j的实际值
??是样本j的预测值
例如,让我们选择一个回归问题,尝试预测本文的读者数量,并假设您的测试集只有两个观察值,即n =2。如果实际读者人数为????= [10
均方根误差(RMSE)RMSE
对于MAE部分中讨论的示例,RMSE =((1/2)*((10-8)^ 2 +(5-6)^ 2))^(1/2)= 1.581。
可能用于评估回归问题的最流行的评估指标是RMSE。均方误差(MSE)与MAE相似,唯一的区别是MSE取原始值和预测值之差的平方的平均值,这简化了梯度计算的过程,对误差项的惩罚更大,并且无偏向错误的方向(因为您正在平方)。但是,这使它对异常值更加敏感。在数学上,它表示为:
R平方/测定系数
R平方通常用于线性回归问题,它决定Y(因变量)的总变化中有多少由X(因变量)的变化来解释。
从数学上讲,它可以写成:
评估指标R平方
对于上述示例,Yactual =????= [10
进行线性回归时,较高的R平方是可取的。R平方的范围是(-∞,1](请不要混淆名称,r平方,它也可以是负数!)。较高的r平方值可以使您感觉良好模型的拟合度,它不应用作选择最佳模型的唯一指标,如果您关心绝对预测,那么最好也检查RMSE / MAE。
调整后的R平方
调整后的R平方
R-Square的缺点是,如果在模型中添加新的预测变量(X),则R-Square值只会增加或保持恒定,而不会减少,因此您无法通过增加模型的复杂性来判断你使它更准确?这就是调整R平方的用处,只有当新的预测变量提高模型准确性时,它才会增加。(到目前为止,Python用户可能必须对此进行显式编码!)
聚类绩效评估指标
聚类是无监督学习的最常见形式。您在聚类中没有任何标签,只有一组用于观察的功能,您的目标是创建将相似的观察放在一起并尽可能保留不相似的观察的聚类。评估聚类算法的性能并不像计算错误数量或精度和召回率那样简单,就像在监督学习算法的情况下一样。
在此,基于一些相似性或不相似性度量(例如,聚类点之间的距离)对聚类进行评估。如果聚类算法将不相似的观测值和相似的观测值分开,那么它的性能很好。聚类算法的两个最受欢迎的度量评估度量是“轮廓系数”和“邓恩指数”,您将在下面进行探讨。
轮廓系数
轮廓系数
为每个样本定义了轮廓系数,该系数由两个分数组成:
a:样本与同一聚类中所有其他点之间的平均距离。
b:样本与下一个最近的簇中所有其他点之间的平均距离。
一组样本的轮廓系数作为每个样本的轮廓系数的平均值给出。对于不正确的聚类,分数的范围是-1,对于高度密集的聚类,分数的范围是+1。零附近的分数表示重叠的群集。当群集密集且分隔良好时,分数会更高,这与群集的标准概念有关。
邓氏指数
邓恩指数(DI)是另一个评估聚类算法的指标。Dunn索引等于最小群集间距离除以最大群集大小。请注意,较大的群集间距离(更好的分隔)和较小的群集大小(更紧凑的群集)会导致较高的DI值。DI越高,表示群集越好。它假定更好的集群意味着集群是紧凑的,并且与其他集群完全分开。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 Squared Square python actual

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-21 15:25