楼主: 时光永痕
523 0

[数据挖掘新闻] 比较模型评估技术,第2部分:分类和聚类 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

40%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
比较模型评估技术,第2部分:分类和聚类
在  第1部分中,我比较了“通用统计工具和测试”下的几种模型评估技术。在第2部分中,我将比较三种比较流行的用于分类和聚类的模型评估技术:混淆矩阵,增益和提升图以及ROC曲线。三种技术之间的主要区别在于,每种技术都专注于不同类型的结果:
混淆矩阵:假阳性,假阴性,真阳性和真阴性。
获得和提升:重点在于真正的积极因素。
ROC曲线:关注正阳性与假阳性。
也就是说,您将需要选择一种方法,该方法可以为您所在的特定领域提供所需的答案。例如,虽然混淆矩阵可能是比较模型的好工具,但对于市场营销决策(在这种情况下,收益和提升图表会是更好的选择)。
其他较不流行(但仍然有效)的工具包括KS图表  和Gini Coefficient。
混淆矩阵
预测分析中的混淆矩阵显示了测试或预测变量的误报率,误报率,真率和真率。在机器学习中,可以使用混淆矩阵来显示分类模型对一组测试数据的执行情况。
正确分配的值将出现在其相对对角线框中:
负值正确分类为负(框a)
正值正确分类为正(框d)
错误分配的观察结果标记为误报(框b)或误报(框c)。
的假阳性率,或负的情况下(错误地)被鉴定为阳性的比例,来计算与等式FPR = B /(A + B)。
该假阴性率告诉我们的阳性病例的比例被错误地标记为阴性。公式为fnr = c /(c + d)。  
预测或测试的总体  准确性定义为(a + d)/(a + c + d + e)。
增益和提升图
混淆矩阵可以使您很好地了解模型的有效性。它还可以帮助您在多个竞争模型之间进行选择。但是有时您想知道特定模型如何处理更多数据;例如,与50%的数据相比,使用60%的数据模型是否表现更好?这是增益和升力图出现的地方。
以下在验证集上运行的收益图显示,在50%的数据中,模型包含90%的目标,添加更多数据对模型中包含的目标百分比的增加可忽略不计。
提升图显示了与随机选择相比,模型的性能要好多少。“提升”是使用和不使用模型的结果之比;更好的模型具有更高的升力。
混淆矩阵给出了所有负数和正数之间的比例,而增益和提升图则专注于真实的正数。他们最常见的用途之一是在市场营销中,以确定潜在客户是否值得致电。
增益和提升图适用于样本(人口的一小部分)。相比之下,混淆矩阵使用整个群体来评估模型。
ROC曲线
一个  受试者工作特征(ROC)曲线是一个比较模型的方式。它是  真实的阳性率 与  假阳性率的关系图。它类似于增益和提升图表,但这次不仅仅是真实的肯定,而重点是真实的肯定与错误的肯定的图形表示。
用外行的话来说,图形越靠近顶部和左侧边界,模型越准确。如果您熟悉微积分(特别是曲线下的面积),则理想模型的面积为1;反之亦然。图中的黑色对角线显示了一个随机模型(概率为50%)的可能性。在上面的示例中也显示;有蓝色和红色两种型号。蓝线代表更准确的模型,因为它靠近顶部和左侧边界。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:coefficient EFFICIENT ROC曲线 市场营销 人工智能

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 21:34