发帖

楼主: 时光永痕

923 0

[数据挖掘新闻] 比较模型评估技术，第2部分：分类和聚类 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

25%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-9-18 21:34:30 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

比较模型评估技术，第2部分：分类和聚类
在  第1部分中，我比较了“通用统计工具和测试”下的几种模型评估技术。在第2部分中，我将比较三种比较流行的用于分类和聚类的模型评估技术：混淆矩阵，增益和提升图以及ROC曲线。三种技术之间的主要区别在于，每种技术都专注于不同类型的结果：
混淆矩阵：假阳性，假阴性，真阳性和真阴性。
获得和提升：重点在于真正的积极因素。
ROC曲线：关注正阳性与假阳性。
也就是说，您将需要选择一种方法，该方法可以为您所在的特定领域提供所需的答案。例如，虽然混淆矩阵可能是比较模型的好工具，但对于市场营销决策（在这种情况下，收益和提升图表会是更好的选择）。
其他较不流行（但仍然有效）的工具包括KS图表  和Gini Coefficient。
混淆矩阵
预测分析中的混淆矩阵显示了测试或预测变量的误报率，误报率，真率和真率。在机器学习中，可以使用混淆矩阵来显示分类模型对一组测试数据的执行情况。
正确分配的值将出现在其相对对角线框中：
负值正确分类为负（框a）
正值正确分类为正（框d）
错误分配的观察结果标记为误报（框b）或误报（框c）。
的假阳性率，或负的情况下（错误地）被鉴定为阳性的比例，来计算与等式FPR = B /（A + B）。
该假阴性率告诉我们的阳性病例的比例被错误地标记为阴性。公式为fnr = c /（c + d）。
预测或测试的总体  准确性定义为（a + d）/（a + c + d + e）。
增益和提升图
混淆矩阵可以使您很好地了解模型的有效性。它还可以帮助您在多个竞争模型之间进行选择。但是有时您想知道特定模型如何处理更多数据；例如，与50％的数据相比，使用60％的数据模型是否表现更好？这是增益和升力图出现的地方。
以下在验证集上运行的收益图显示，在50％的数据中，模型包含90％的目标，添加更多数据对模型中包含的目标百分比的增加可忽略不计。
提升图显示了与随机选择相比，模型的性能要好多少。“提升”是使用和不使用模型的结果之比；更好的模型具有更高的升力。
混淆矩阵给出了所有负数和正数之间的比例，而增益和提升图则专注于真实的正数。他们最常见的用途之一是在市场营销中，以确定潜在客户是否值得致电。
增益和提升图适用于样本（人口的一小部分）。相比之下，混淆矩阵使用整个群体来评估模型。
ROC曲线
一个  受试者工作特征（ROC）曲线是一个比较模型的方式。它是  真实的阳性率与  假阳性率的关系图。它类似于增益和提升图表，但这次不仅仅是真实的肯定，而重点是真实的肯定与错误的肯定的图形表示。
用外行的话来说，图形越靠近顶部和左侧边界，模型越准确。如果您熟悉微积分（特别是曲线下的面积），则理想模型的面积为1；反之亦然。图中的黑色对角线显示了一个随机模型（概率为50％）的可能性。在上面的示例中也显示；有蓝色和红色两种型号。蓝线代表更准确的模型，因为它靠近顶部和左侧边界。

关注 CDA 人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：coefficient EFFICIENT ROC曲线市场营销人工智能

[数据挖掘新闻] 比较模型评估技术，第2部分：分类和聚类 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 比较模型评估技术，第2部分：分类和聚类 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群