朴素贝叶斯是一种适用于二分类和多分类的分类算法。它是一种监督分类技术,用于通过使用条件概率将类标签分配给实例/记录来对未来对象进行分类。在监督分类中,训练数据已经被标记了一个类。例如,如果欺诈交易已被标记交易数据如果我们想将未来的交易分类为欺诈/非欺诈,那么这种类型的分类将被称为监督。
假设我们要对水果进行分类。如果水果是红色的、圆形的、直径约 3 英寸,则可以认为它是苹果。如果我们有 1000 片水果的数据,包括每个水果的特征或特性,我们可以对 1000 片水果的形状、长度、颜色、甜度、酸度等特征进行分类。
图片来源: 优雅的微网
当我们查看上表时,我们看到 50% 的水果是香蕉,30% 是橙子,20% 是其他类型的水果。
朴素贝叶斯分类器假设每个特征/预测变量都是独立的,但情况并非总是如此,因此在选择此分析技术或任何其他分析技术之前了解您正在分析的数据类型非常重要。
为了充分利用朴素贝叶斯方法,训练数据集应该足以代表整个人口——包含类标签和属性的每个组合。与数值变量相比,朴素贝叶斯在分类输入变量的情况下表现良好。对于数值变量,假设正态分布,这是一个强假设。
朴素贝叶斯如何用于企业分析?
这种技术可用于评估许多应用程序。
天气预报:根据温度、湿度、压力等,组织可以预测明天是否有雨/晴天/有风。
欺诈分析:根据员工提交的各种报销食品、旅行等支出的账单,企业可以预测欺诈的可能性。
用例 1
业务问题: 银行信贷员希望根据贷款金额、每月分期付款、工作期限、拖欠次数、年收入、债务收入比等属性来预测贷款申请人是银行违约者还是非违约者等等。这里的目标变量将是“过去的默认状态”,而预测的类别将包含值“是或否”,分别代表“可能默认/不太可能默认”类别。
商业利益: 一旦分配了类别,银行将拥有一个贷款申请人数据集,每个申请人都被标记为“可能/不可能违约”。根据这些标签,银行可以轻松地决定是否向申请人提供贷款以及每个申请人有资格获得多少信贷和利率。
用例 2
业务问题: 医生希望根据患者的各种属性(例如血压、血红蛋白水平、血糖水平、给予患者的药物名称、类型)来预测成功治疗患者疾病或状况的可能性给予患者的治疗等。这里的目标变量将是“过去的治愈状态”,预测的类别将包含值“是或否”,分别表示“容易治愈/不易治愈”。
商业利益: 考虑到患者的健康和身体状况以及最近使用的治疗和药物,可以预测治愈的可能性,如果需要,可以建议改变治疗和药物建议。
朴素贝叶斯是一种适用于二分类和多分类的分类算法。与数值变量相比,朴素贝叶斯在分类输入变量的情况下表现良好。它对做出预测和基于历史结果的预测数据。
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







