发帖

楼主: 小小白儿

250 1

[教育经济学基本知识] 《人工智能现代方法（第4版）》第12章不确定性的量化学习笔记 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-12-13
最后登录: 2018-12-13

楼主

小小白儿 发表于 2025-12-12 10:34:51 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

从“非黑即白”到“灰度世界”

在第11章中，我们向AI传授了如何制定“完美计划”的能力——但这一能力的前提是：AI必须完全掌握世界的每一个状态，并且所有动作的结果都具有百分之百的确定性。

然而现实却截然不同：

医生诊断：
  “病人发烧咳嗽，是感冒还是肺炎？”
  → 不确定，需要检查

自动驾驶：
  “前方物体是塑料袋还是石头？”
  → 不确定，需要谨慎

天气预报：
  “明天降雨概率60%”
  → 不确定，但可以量化

本章核心问题：当信息不完整、证据模糊时，如何做出理性决策？

面对不确定性，人类与智能系统都需要一种更灵活的推理方式。本章将探索如何在知识不完备的情况下，依然保持逻辑上的合理性与决策上的最优性。

历史趣闻（来自文档补充）

1654年，法国赌徒梅雷骑士向数学家帕斯卡提问：
  “两个赌徒提前结束赌局，如何公平分配赌注？”
  
帕斯卡与费马通信讨论，诞生了：
  1. 概率论雏形
  2. 期望值概念
  3. 现代决策理论的基础

从此，数学开始处理“可能性”而非“确定性”。

一、理性决策框架：应对不确定性的三大支柱

在无法预知一切的情境下，理性行为不再体现为“绝对正确”的选择，而是基于当前可得信息，追求长期期望中的最优结果。

不确定性普遍存在于真实世界中，任何感知、测量或推理过程都可能带有误差和遗漏。

文档12.1.1节指出：
“我们对政治或战争规则的了解，
远不如对国际象棋或算术规则的了解。”

例子对比：
- 国际象棋：规则完全明确，状态完全可观测
- 医疗诊断：症状模糊，病因多重，检查有误差
- 自动驾驶：传感器噪声，行人意图未知

理性决策的三个关键要素：

理性决策 = 在不确定性中最大化“期望好处”

需要三个东西：
1. 可能结果集：会发生什么？
2. 概率分布：每个结果的可能性多大？
3. 效用函数：每个结果对我多“好”？

文档12.1.2节强调：
“概率论填补了逻辑的鸿沟...
允许我们在掌握不确定信息的情况下进行严格的推理。”

其中，“期望效用”充当了决策过程中的“数学良心”。它通过加权各种可能结果的效用及其发生概率，提供一个统一的评价标准。

公式：
期望效用 = Σ (结果i的概率 × 结果i的效用)

例子：是否带伞？
  结果1：下雨（概率0.6），没伞 → 效用-50（淋湿）
  结果2：下雨（概率0.6），带伞 → 效用-5（麻烦）
  结果3：不下雨（概率0.4），没伞 → 效用+10（轻松）
  结果4：不下雨（概率0.4），带伞 → 效用0（一般）

计算：
  带伞的期望效用 = 0.6×(-5) + 0.4×0 = -3
  不带伞的期望效用 = 0.6×(-50) + 0.4×10 = -26
  理性选择：带伞（-3 > -26）

关键洞察： 理性并非要求每次都选对，而是在每一次判断中，依据已有信息做出平均意义上最有利的选择。

二、概率论：AI理解不确定性的语言体系

为了使机器能够形式化地表达“我不知道，但我可以估计”，我们需要一套严谨的语言工具——这正是概率论的作用所在。

基本的概率记号定义

文档12.2节系统介绍：

1. 样本空间Ω：所有可能结果的集合
   掷骰子：Ω = {1,2,3,4,5,6}

2. 事件A：样本空间的子集
   事件“偶数点”：A = {2,4,6}

3. 概率P(A)：事件发生的可能性
   公理：
     a) 非负性：P(A) ≥ 0
     b) 规范性：P(Ω) = 1
     c) 可加性：互斥事件概率可加

4. 随机变量X：将结果映射到数值
   骰子点数：X(1)=1, X(2)=2...

如何用语言表达概率断言？

两种表述方式：

1. 命题形式：
   P(发烧 = 真 | 流感 = 真) = 0.9
   “如果得了流感，那么发烧的概率是90%”

2. 概率密度形式（连续变量）：
   P(身高 = x) = f(x) （身高分布曲线）

为何概率公理是合理的？

柯尔莫哥洛夫公理体系（1933年）：
1. 非负性：概率不能为负
   → 合理：可能性最小为0（不可能）

2. 规范性：总概率为1
   → 合理：所有可能结果覆盖100%

3. 可加性：互斥事件概率相加
   → 合理：A或B发生 = P(A)+P(B)
   例：掷骰子得1或2的概率 = 1/6+1/6=1/3

这些公理如此自然，以至于我们常忘记它们是“规定”
而非“发现”。

这些公理不仅构成了数学基础，也反映了人类对随机事件一致性的直觉认知。

三、联合分布：构建完整的概率全景图

完全联合概率分布描述了所有变量组合下的可能性，相当于对整个世界的概率建模。

什么是完全联合分布？

假设只有三个布尔变量：
  A：感冒（是/否）
  B：发烧（是/否）
  C：咳嗽（是/否）

完全联合分布 = 列出所有2?=8种组合的概率：

P(A=是, B=是, C=是) = 0.03
P(A=是, B=是, C=否) = 0.02
P(A=是, B=否, C=是) = 0.05
P(A=是, B=否, C=否) = 0.10
P(A=否, B=是, C=是) = 0.01
P(A=否, B=是, C=否) = 0.04
P(A=否, B=否, C=是) = 0.20
P(A=否, B=否, C=否) = 0.55
总和 = 1.00

如何从联合分布中进行推断？

文档12.3节核心方法：

问题：已知病人发烧，问感冒的概率？

步骤：
1. 找出所有“发烧=是”的情况：
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   (A=否,B=是,C=是): 0.01
   (A=否,B=是,C=否): 0.04
   总和 = 0.10

2. 其中“感冒=是”的情况：
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   总和 = 0.05

3. 条件概率：
   P(感冒|发烧) = 0.05 / 0.10 = 0.5

结论：发烧的病人，有50%概率感冒。

尽管功能强大，这种方法存在明显短板：

联合分布的致命缺陷：维度爆炸

问题规模爆炸：
- 10个布尔变量 → 2?? = 1024种组合
- 20个布尔变量 → 2?? ≈ 100万种组合
- 100个变量 → 2??? ≈ 1.3×10??种组合
  （比宇宙原子数还多）

存储不可能，计算更不可能！
需要更聪明的方法...

随着变量数量增加，所需存储和计算的空间呈指数增长，使得该方法难以应用于复杂现实问题。

四、独立性：简化概率世界的魔法钥匙

若两个事件互不影响，则它们相互独立。这种结构特性极大降低了建模复杂度。

独立性的直观含义

两个事件独立 = 一个发生不影响另一个的概率

例子：
  A：第一次掷骰子得6
  B：第二次掷骰子得6
  P(B|A) = P(B) = 1/6
  → 独立（第一次结果不影响第二次）

反例：
  A：今天下雨
  B：地面湿
  P(B|A) > P(B)
  → 不独立（下雨增加地面湿的概率）

条件独立性：更精细的依赖关系刻画

文档12.4节关键概念：

三个变量X,Y,Z：
  X和Y在给定Z的条件下独立
  记作： (X ⊥ Y | Z)

含义：知道了Z，X就不能提供关于Y的额外信息

经典例子（文档12.2.2）：
  X：草坪湿
  Y：下雨
  Z：洒水器开
  
  如果不知道Z：
    X和Y相关（草坪湿可能是因为下雨）
  
  如果已知Z=是（洒水器开了）：
    X和Y独立（草坪湿已知是洒水器导致，与下雨无关）

当给定某些背景信息后，原本相关的变量可能变得无关，这种现象广泛存在于自然和社会系统中。

独立性如何实现高效计算？

没有独立性：
  P(A,B,C,D,E) 需要2?=32个参数

如果所有变量独立：
  P(A,B,C,D,E) = P(A)P(B)P(C)P(D)P(E)
  只需要5个参数！

现实通常介于两者之间：
  部分独立，部分条件独立
  → 贝叶斯网络的用武之地（第13章）

利用独立性和条件独立性，我们可以大幅压缩模型规模并加速推理过程。

五、贝叶斯法则：概率推理的多功能利器

作为概率推理的核心工具，贝叶斯法则允许我们根据新证据不断更新信念。

贝叶斯公式的形式表达

从条件概率定义出发：
P(A|B) = P(A,B) / P(B)  (1)
P(B|A) = P(A,B) / P(A)  (2)

由(2)得 P(A,B) = P(B|A)P(A)
代入(1)：
P(A|B) = P(B|A)P(A) / P(B)

这就是贝叶斯法则！

公式解读：先验、似然与后验的关系

P(A|B)：后验概率（我们想求的）
  “在观察到B后，A为真的概率”

P(B|A)：似然（通常已知）
  “如果A为真，观察到B的可能性”

P(A)：先验概率（我们的初始信念）
  “在观察任何证据前，A为真的概率”

P(B)：证据概率（归一化常数）
  “观察到B的总概率”

应用实例1：简单医学诊断（参考文档12.5.1）

问题：某疾病发病率1%，检测准确率99%
      某人检测阳性，问实际患病的概率？

设：
  D：患病（先验P(D)=0.01）
  T：检测阳性
  
已知：
  P(T|D) = 0.99 （患者检测阳性概率）
  P(T|?D) = 0.01 （健康人误检概率）

求：P(D|T)

计算：
  P(D|T) = P(T|D)P(D) / P(T)
  P(T) = P(T|D)P(D) + P(T|?D)P(?D)
        = 0.99×0.01 + 0.01×0.99 = 0.0198
  
  所以：
  P(D|T) = (0.99×0.01) / 0.0198 ≈ 0.5

惊人结果：即使检测准确率99%，
          阳性者实际患病概率只有50%！
          因为疾病本身太罕见。

应用实例2：多证据融合推理（文档12.5.2）

现实：有多个证据源
  症状B：发烧
  症状C：咳嗽
  问疾病A的概率？

朴素方法（错误）：
  P(A|B,C) ∝ P(B,C|A)P(A)
  但P(B,C|A)很难直接得到！

聪明方法：假设条件独立
  P(B,C|A) = P(B|A)P(C|A)
  如果症状在给定疾病下独立

则：
  P(A|B,C) ∝ P(B|A)P(C|A)P(A)

可以逐个证据更新：
  先根据发烧更新信念
  再根据咳嗽更新信念
  结果相同（因为乘法可交换）

应用实例3：垃圾邮件自动过滤（文档12.6节）

朴素贝叶斯分类器：
  判断邮件是垃圾(Spam)还是正常(Ham)

特征：邮件中的单词
  如：“免费”、“赚钱”、“发票”...

假设：单词在给定类别下条件独立
  （虽然不完全成立，但效果不错）

公式：
  P(Spam|单词1,单词2,...)
    ∝ P(Spam) × Π P(单词i|Spam)

训练：从已标注邮件统计
  P(单词|Spam)：垃圾邮件中单词出现频率
  P(单词|Ham)：正常邮件中单词出现频率

实际：Gmail等邮箱的早期过滤系统
      准确率可达99.9%

从疾病判断到信息分类，贝叶斯方法展现出强大的实用价值。

六、实战演练：重返Wumpus世界

回到经典的Wumpus世界环境，我们将对比传统逻辑推理与概率推理的表现差异。

Wumpus世界回顾

第7章的逻辑版Wumpus：
  - 用逻辑规则推理
  - 确定性地知道“有臭味→相邻有怪物”
  - 但现实：传感器有误差！

概率版Wumpus：
  - 臭味传感器：有怪物时80%报警，没有时10%误报
  - 需要概率推理！

引入概率后的推理流程

场景：智能体在(1,1)，闻到臭味
      问：相邻格子(1,2)、(2,1)有怪物的概率？

已知：
  - 怪物在16个格子中的某一个
  - 先验：每个格子有怪物概率1/16
  - 传感器模型：
      P(臭味|相邻有怪物) = 0.8
      P(臭味|不相邻有怪物) = 0.1

计算：
  考虑所有可能的怪物位置
  根据传感器读数更新概率
  
结果：
  (1,2)和(2,1)的概率最高
  但非100%！可能传感器误报

与纯逻辑推理方式的对比分析

逻辑推理：
  “有臭味 → 相邻有怪物（100%确定）”
  如果传感器故障，结论错误

概率推理：
  “有臭味 → 相邻有怪物的概率从6.25%提升到~70%”
  但仍有30%可能是传感器误报
  更稳健，更符合现实

信念的持续动态更新机制

概率推理的优势：
  新证据到来 → 更新概率

例子：
  第一步：闻到臭味 → (1,2)怪物概率70%
  第二步：走到(1,2)没死 → 怪物概率下降
  第三步：在(2,1)闻到更浓臭味 → 概率重新上升
  
像侦探破案：随着线索积累，调整嫌疑度

在缺乏确定性线索时，概率方法仍能积累微弱证据，逐步形成可靠判断。

七、MYCIN系统的启示：概率与确定性因子的较量

早期医疗专家系统MYCIN采用了一种非传统的“确定性因子”（Certainty Factor, CF）方法来处理不确定性。

MYCIN系统背景介绍

1970年代斯坦福的专家系统
目标：诊断血液感染，推荐抗生素

挑战：
  1. 医学知识不确定
  2. 没有完美理论模型（不像DENDRAL的化学规则）
  3. 需要融合多个不确定证据

确定性因子的工作原理

MYCIN的简化概率：
  每个规则有确定性因子CF ∈ [-1, 1]
    CF = 1：完全确定
    CF = 0：完全不确定
    CF = -1：完全否定

组合规则：
  CF组合 = CF1 + CF2 - CF1×CF2 （同向）
  其他组合公式处理冲突证据

优点：
  - 医生直觉匹配（“很可能”、“不太可能”）
  - 计算简单
  - 不需要完整概率分布

CF方法与概率理论的本质区别

概率论：
  - 频率主义：长期重复中的比例
  - 贝叶斯主义：主观信念程度

确定性因子：
  - 实用主义：有效就行
  - 认知因素：反映确信程度，不一定是客观概率

MYCIN成功证明：
  有时“足够好”的近似比“完全正确”的理论更实用

虽然CF不具备严格的数学一致性，但在特定领域表现出良好的实用性。

其在AI发展史上的意义

MYCIN的影响：
1. 证明AI可达到专家水平（甚至超越初级医生）
2. 开创不确定推理的实用方法
3. 催生后续专家系统（如XCON配置系统）
4. 启发后来的概率图模型

文档提到：
  “MYCIN规则不得不从大量的专家访谈中获得”
  → 知识获取成为AI关键问题

八、哲学与历史视角：不确定性的思想演进

人类对不确定性的思考源远流长，从古典哲学走向现代统计学。

从亚里士多德到贝叶斯的思想脉络

文档1.1.3-1.1.4节的历史脉络：

1. 亚里士多德（公元前）：
   - 三段论逻辑：确定推理
   - “苏格拉底是人，人皆有一死 → 苏格拉底会死”
   - 但无法处理“苏格拉底可能感冒”

2. 卡尔达诺（16世纪）：
   - 首次系统研究概率（为了赌博！）
   - 《论赌博游戏》出版于死后（1663）

3. 帕斯卡与费马（1654）：
   - 通信解决“点数问题”
   - 奠定期望值概念

4. 贝叶斯（18世纪）：
   - 提出“逆概率”（后验概率）
   - 贝叶斯法则：根据新证据更新信念

统计学的诞生与发展

1662年：约翰·格兰特
  - 分析伦敦人口普查数据
  - 发现男婴出生率略高于女婴（51% vs 49%）
  - 开创人口统计学

1922年：罗纳德·费舍尔
  - 整合概率、实验设计、数据分析
  - 需要机械计算器“百万富翁”辅助
  - 感叹计算器比年薪还贵！

显示：概率理论需要计算工具支撑

人工智能中处理不确定性的演化路径

1950-60s：逻辑主义主导
  - 试图用逻辑规则描述一切
  - 遇到现实不确定性时崩溃

1970s：专家系统兴起
  - MYCIN的确定性因子
  - PROSPECTOR的贝叶斯网络雏形

1980s：概率图模型成熟
  - 贝叶斯网络（第13章）
  - 马尔可夫网络

1990s-现在：深度学习+概率
  - 神经网络输出概率分布
  - 贝叶斯深度学习
  - 不确定性的量化成为AI安全核心

本章思想实验精选

三门问题（又称蒙提霍尔问题）的反直觉解析

游戏规则：
  三扇门，一扇后有汽车，两扇后有山羊
  你选一扇（比如1号）
  主持人（知道答案）打开另一扇有山羊的（比如3号）
  问：该坚持原选，还是换到2号？

直觉：剩下两扇门，各50%概率有车
实际：换门胜率2/3，坚持胜率1/3

贝叶斯解释：
  设C?：车在1号，C?：车在2号，C?：车在3号
  初始：P(C?)=P(C?)=P(C?)=1/3
  
  主持人打开3号（H?）：
    P(H?|C?)=1/2 （随机开2或3）
    P(H?|C?)=1   （只能开3，因2有车）
    P(H?|C?)=0   （不会开有车的）
  
  贝叶斯更新：
    P(C?|H?) = (1/2×1/3) / P(H?) = 1/3
    P(C?|H?) = (1×1/3) / P(H?) = 2/3
    
  所以该换！

新冠检测中的贝叶斯思维实践

现实版：
  疾病患病率：0.1%（先验）
  检测灵敏度：99%（患者中阳性率）
  检测特异度：99%（健康人中阴性率）
  
  检测阳性后，实际患病概率？
  
计算：
  P(病|阳) = (0.99×0.001) / [0.99×0.001 + 0.01×0.999]
           ≈ 9%
  
  即使检测“99%准确”，
  阳性者实际患病概率只有9%！
  因为疾病本身罕见。
  
启示：理解基础概率（先验）至关重要。

本章核心洞见总结

概率不是模糊的借口，而是精确描述未知的工具

确定性逻辑：
  “如果A，则B”
  非真即假

概率逻辑：
  “如果A，则以概率p得到B”
  量化不确定性程度

贝叶斯思维是一种持续演化的世界观：每一条新证据都应修正我们的信念

贝叶斯推理的本质：
  先验信念 + 新证据 → 更新后的后验信念
  
像科学方法：
  提出假设（先验）
  实验检验（收集证据）
  修正理论（后验）
  循环往复

期望效用原则为不确定环境下的决策提供了清晰指引

理性决策 = 最大化期望效用
  不是最大化“可能的最好结果”
  也不是最小化“可能的最坏结果”
  而是考虑所有可能性的加权平均

这解释了：
  - 为什么买保险（小损失避免大灾难）
  - 为什么投资分散（不把所有鸡蛋放一个篮子）
  - 为什么理性人有时选择“次优但稳定”

从MYCIN系统到当今深度学习模型，不确定性建模始终是AI进步的关键驱动力

历史教训：
1. 纯逻辑处理不了现实不确定性
2. 实用近似有时比理论完美更有效
3. 概率提供了统一框架，但计算是挑战
4. 最终需要结合：
   - 概率理论（严谨）
   - 近似算法（可行）
   - 领域知识（有效）

下一章预告：迈向高维概率推理的新纪元 —— 第13章《概率推理》

我们已在第12章掌握了以下核心能力：

使用概率量化不确定性
运用贝叶斯法则动态更新信念
在信息不全时做出理性决策

但挑战依然严峻：完全联合分布因“维度爆炸”而不可扩展。现实中常涉及数百甚至上千变量，穷举所有组合显然不现实。

第13章将揭晓解决方案：

如何利用“网络结构”高效表示和计算复杂的高维概率分布？

答案就是：贝叶斯网络——

采用有向图表达变量间的依赖关系
仅需存储局部条件概率表
实现高效推理与预测

这项技术已成为现代AI中概率建模的基石。

从“概率计算”跃迁至“概率推理网络”，AI处理不确定性的能力将迎来指数级提升！

本章结语

确定性是一种理想化的奢侈品，而不确定性才是现实世界的常态。

概率论并不意味着放弃精确，恰恰相反，它是以数学的严谨去拥抱现实的不完美。

从赌桌上的偶然规律，到医学诊断、垃圾邮件识别乃至自动驾驶决策，

贝叶斯法则教会AI：即使身处充满未知的世界，也能以理性之光照亮前行之路。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：不确定性学习笔记人工智能习笔记不确定