楼主: wangjuan1665
1061 10

[其他] 统计算法:高斯朴素贝叶斯 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
5.8543
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
100 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-5-14
最后登录
2018-5-14

楼主
wangjuan1665 发表于 2025-11-18 15:43:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

高斯朴素贝叶斯总结

高斯朴素贝叶斯(Gaussian Naive Bayes,简称 GNB)是一种基于贝叶斯定理的分类算法,尤其适用于具有连续特征数据的任务。它假设数据的特征之间是条件独立的,并且每个特征都遵循高斯分布(正态分布)。高斯朴素贝叶斯是一种极其简便且高效的分类算法,广泛应用于文本分类、疾病预测、环境监测等领域。

核心原理

高斯朴素贝叶斯基于贝叶斯定理,其目标是计算一个样本属于某一类别的后验概率,并将其归类到具有最大后验概率的类别。贝叶斯定理的公式如下:

[ P(C|X) = \frac{P(X|C) P?}{P(X)} ]

其中:

  • ( P(C|X) ):后验概率(Posterior Probability):在给定输入特征 ( X ) 的情况下,属于类别 ( C ) 的概率。
  • ( P(X|C) ):似然度(Likelihood):在类别 ( C ) 下,观察到特征 ( X ) 的概率。
  • ( P? ):先验概率(Prior Probability):类别 ( C ) 出现的概率,通常根据训练数据计算。
  • ( P(X) ):边际概率(Marginal Probability):观察到特征 ( X ) 的总概率。

高斯朴素贝叶斯的具体步骤

假设特征条件独立

高斯朴素贝叶斯假设输入特征之间是互相独立的,这简化了计算过程。假设样本 ( X = (x_1, x_2, \dots, x_n) ) 中的特征独立,那么条件概率 ( P(X|C) ) 可以分解为:

[ P(X|C) = P(x_1|C) P(x_2|C) \dots P(x_n|C) ]

高斯分布假设

高斯朴素贝叶斯假设每个特征 ( x_i ) 在给定类别 ( C ) 时服从高斯分布。即,对于类别 ( C ),特征 ( x_i ) 的概率密度函数为:

[ P(x_i|C) = \frac{1}{\sqrt{2\pi \sigma_C^2}} \exp\left(-\frac{(x_i - \mu_C)^2}{2\sigma_C^2}\right) ]

其中:

  • ( \mu_C ):类别 ( C ) 下特征 ( x_i ) 的均值。
  • ( \sigma_C^2 ):类别 ( C ) 下特征 ( x_i ) 的方差。

这意味着每个特征的数据点在类别 ( C ) 下的分布是正态分布,且有不同的均值和方差。

计算后验概率

使用贝叶斯定理,根据特征 ( X ) 和类别 ( C ) 的条件概率,计算后验概率 ( P(C|X) )。公式为:

[ P(C|X) \propto P? \prod_{i=1}^n P(x_i|C) ]

( P? ):类别 ( C ) 的先验概率,根据训练数据中各类别的比例计算。

( P(x_i|C) ):给定类别 ( C ) 时,特征 ( x_i ) 的条件概率,根据高斯分布计算。

选择最大后验概率的类别

对于每个新输入 ( X ),计算所有类别的后验概率 ( P(C|X) ),并选择后验概率最大的类别作为预测结果:

[ \hat{y} = \arg\max_{C} P(C|X) ]

其中 ( \hat{y} ) 是预测类别,选取概率最大的 ( C ) 作为结果。

高斯朴素贝叶斯的训练过程

计算每个类别的先验概率

先验概率 ( P? ) 是类别 ( C ) 在训练数据中出现的频率。计算方法为:

[ P? = \frac{\text{类别 C 的样本数}}{\text{总样本数}} ]

计算每个类别的特征均值和方差

对于每个类别 ( C ),计算每个特征 ( x_i ) 的均值 ( \mu_C ) 和方差 ( \sigma_C^2 )。这些值描述了特征在该类别下的分布。

  • 均值:( \mu_C = \frac{1}{n_C} \sum_{i=1}^{n_C} x_i )
  • 方差:( \sigma_C^2 = \frac{1}{n_C} \sum_{i=1}^{n_C} (x_i - \mu_C)^2 )

其中 ( n_C ) 是类别 ( C ) 下的样本数。

高斯朴素贝叶斯的优缺点

优点

  • 简单且高效:高斯朴素贝叶斯是一个非常简易的算法,计算复杂度低,适用于大规模数据集。
  • 处理连续数据:它可以处理连续特征数据(如压力、温度等),并假设这些特征服从高斯分布。
  • 训练速度快:由于假设特征独立,训练过程仅需计算均值和方差,速度非常快。
  • 适用于高维数据:高斯朴素贝叶斯特别适合高维特征数据(例如文本分类中的单词特征)。

缺点

  • 特征独立性假设过于强烈:高斯朴素贝叶斯假设特征之间是互相独立的,这在许多实际问题中不成立,可能导致预测准确率较低。
  • 对异常值敏感:由于假设特征符合高斯分布,数据中的异常值可能对模型产生较大影响,导致误分类。
  • 高斯分布假设:实际数据的分布可能与高斯分布不符,这会导致分类性能下降。

高斯朴素贝叶斯的应用场景

文本分类

例如,垃圾邮件识别、情绪分析。文本中的词汇可以作为特性,文本属于某类的概率可以通过高斯朴素贝叶斯来计算。

疾病预测:通过检测身体特性(如血压、体温等)来预测患者是否患病。每个特性可以假设符合高斯分布。

金融领域:在金融行业,可以用高斯朴素贝叶斯来预测股市趋势、客户行为等。

环境监测:可以通过传感器数据(如压力、温度等)判断环境是否处于正常状态。

图像分类:对于图像处理任务,像素值可以作为特性,使用高斯朴素贝叶斯来判断图像类别。

总结:高斯朴素贝叶斯是一种简洁、高效的分类算法,适用于处理具有连续特性的分类问题。它通过贝叶斯定理结合特性的高斯分布假设进行分类,能够迅速进行训练和预测。尽管它的独立性假设在很多情况下过于简化,但在许多实际应用中仍然表现良好,尤其是在文本分类和环境监测等领域。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:朴素贝叶斯 贝叶斯 Probability Likelihood bability

已有 1 人评分经验 收起 理由
xujingtang + 80 精彩帖子

总评分: 经验 + 80   查看全部评分

沙发
军旗飞扬 发表于 2025-11-19 08:20:22

藤椅
zgs3721 发表于 2025-11-19 08:59:40
谢谢分享

板凳
newfei188 发表于 2025-11-19 09:13:59

报纸
babylaugh 发表于 2025-11-19 09:53:25
点赞分享

地板
512661101 发表于 2025-11-19 10:12:51
谢谢分享!

7
是没什么 发表于 2025-11-19 10:30:16
谢谢分享

8
晏几道 发表于 2025-11-19 13:55:19
非常有用

9
cre8 发表于 2025-11-19 14:45:30

10
yiyijiayuan 发表于 2025-11-19 14:53:35
还是路过。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-9 06:05