楼主: 小小白儿
86 1

[教育经济学基本知识] 《人工智能现代方法(第4版)》 第12章 不确定性的量化 学习笔记 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-12-13
最后登录
2018-12-13

楼主
小小白儿 发表于 2025-12-12 10:34:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

从“非黑即白”到“灰度世界”

在第11章中,我们向AI传授了如何制定“完美计划”的能力——但这一能力的前提是:AI必须完全掌握世界的每一个状态,并且所有动作的结果都具有百分之百的确定性。

然而现实却截然不同:

医生诊断:
  “病人发烧咳嗽,是感冒还是肺炎?”
  → 不确定,需要检查

自动驾驶:
  “前方物体是塑料袋还是石头?”
  → 不确定,需要谨慎

天气预报:
  “明天降雨概率60%”
  → 不确定,但可以量化

本章核心问题:当信息不完整、证据模糊时,如何做出理性决策?

面对不确定性,人类与智能系统都需要一种更灵活的推理方式。本章将探索如何在知识不完备的情况下,依然保持逻辑上的合理性与决策上的最优性。

历史趣闻(来自文档补充)

1654年,法国赌徒梅雷骑士向数学家帕斯卡提问:
  “两个赌徒提前结束赌局,如何公平分配赌注?”
  
帕斯卡与费马通信讨论,诞生了:
  1. 概率论雏形
  2. 期望值概念
  3. 现代决策理论的基础

从此,数学开始处理“可能性”而非“确定性”。

一、理性决策框架:应对不确定性的三大支柱

在无法预知一切的情境下,理性行为不再体现为“绝对正确”的选择,而是基于当前可得信息,追求长期期望中的最优结果。

不确定性普遍存在于真实世界中,任何感知、测量或推理过程都可能带有误差和遗漏。

文档12.1.1节指出:
“我们对政治或战争规则的了解,
远不如对国际象棋或算术规则的了解。”

例子对比:
- 国际象棋:规则完全明确,状态完全可观测
- 医疗诊断:症状模糊,病因多重,检查有误差
- 自动驾驶:传感器噪声,行人意图未知

理性决策的三个关键要素:

理性决策 = 在不确定性中最大化“期望好处”

需要三个东西:
1. 可能结果集:会发生什么?
2. 概率分布:每个结果的可能性多大?
3. 效用函数:每个结果对我多“好”?

文档12.1.2节强调:
“概率论填补了逻辑的鸿沟...
允许我们在掌握不确定信息的情况下进行严格的推理。”

其中,“期望效用”充当了决策过程中的“数学良心”。它通过加权各种可能结果的效用及其发生概率,提供一个统一的评价标准。

公式:
期望效用 = Σ (结果i的概率 × 结果i的效用)

例子:是否带伞?
  结果1:下雨(概率0.6),没伞 → 效用-50(淋湿)
  结果2:下雨(概率0.6),带伞 → 效用-5(麻烦)
  结果3:不下雨(概率0.4),没伞 → 效用+10(轻松)
  结果4:不下雨(概率0.4),带伞 → 效用0(一般)

计算:
  带伞的期望效用 = 0.6×(-5) + 0.4×0 = -3
  不带伞的期望效用 = 0.6×(-50) + 0.4×10 = -26
  理性选择:带伞(-3 > -26)

关键洞察: 理性并非要求每次都选对,而是在每一次判断中,依据已有信息做出平均意义上最有利的选择。

二、概率论:AI理解不确定性的语言体系

为了使机器能够形式化地表达“我不知道,但我可以估计”,我们需要一套严谨的语言工具——这正是概率论的作用所在。

基本的概率记号定义

文档12.2节系统介绍:

1. 样本空间Ω:所有可能结果的集合
   掷骰子:Ω = {1,2,3,4,5,6}

2. 事件A:样本空间的子集
   事件“偶数点”:A = {2,4,6}

3. 概率P(A):事件发生的可能性
   公理:
     a) 非负性:P(A) ≥ 0
     b) 规范性:P(Ω) = 1
     c) 可加性:互斥事件概率可加

4. 随机变量X:将结果映射到数值
   骰子点数:X(1)=1, X(2)=2...

如何用语言表达概率断言?

两种表述方式:

1. 命题形式:
   P(发烧 = 真 | 流感 = 真) = 0.9
   “如果得了流感,那么发烧的概率是90%”

2. 概率密度形式(连续变量):
   P(身高 = x) = f(x) (身高分布曲线)

为何概率公理是合理的?

柯尔莫哥洛夫公理体系(1933年):
1. 非负性:概率不能为负
   → 合理:可能性最小为0(不可能)

2. 规范性:总概率为1
   → 合理:所有可能结果覆盖100%

3. 可加性:互斥事件概率相加
   → 合理:A或B发生 = P(A)+P(B)
   例:掷骰子得1或2的概率 = 1/6+1/6=1/3

这些公理如此自然,以至于我们常忘记它们是“规定”
而非“发现”。

这些公理不仅构成了数学基础,也反映了人类对随机事件一致性的直觉认知。

三、联合分布:构建完整的概率全景图

完全联合概率分布描述了所有变量组合下的可能性,相当于对整个世界的概率建模。

什么是完全联合分布?

假设只有三个布尔变量:
  A:感冒(是/否)
  B:发烧(是/否)
  C:咳嗽(是/否)

完全联合分布 = 列出所有2?=8种组合的概率:

P(A=是, B=是, C=是) = 0.03
P(A=是, B=是, C=否) = 0.02
P(A=是, B=否, C=是) = 0.05
P(A=是, B=否, C=否) = 0.10
P(A=否, B=是, C=是) = 0.01
P(A=否, B=是, C=否) = 0.04
P(A=否, B=否, C=是) = 0.20
P(A=否, B=否, C=否) = 0.55
总和 = 1.00

如何从联合分布中进行推断?

文档12.3节核心方法:

问题:已知病人发烧,问感冒的概率?

步骤:
1. 找出所有“发烧=是”的情况:
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   (A=否,B=是,C=是): 0.01
   (A=否,B=是,C=否): 0.04
   总和 = 0.10

2. 其中“感冒=是”的情况:
   (A=是,B=是,C=是): 0.03
   (A=是,B=是,C=否): 0.02
   总和 = 0.05

3. 条件概率:
   P(感冒|发烧) = 0.05 / 0.10 = 0.5

结论:发烧的病人,有50%概率感冒。

尽管功能强大,这种方法存在明显短板:

联合分布的致命缺陷:维度爆炸

问题规模爆炸:
- 10个布尔变量 → 2?? = 1024种组合
- 20个布尔变量 → 2?? ≈ 100万种组合
- 100个变量 → 2??? ≈ 1.3×10??种组合
  (比宇宙原子数还多)

存储不可能,计算更不可能!
需要更聪明的方法...

随着变量数量增加,所需存储和计算的空间呈指数增长,使得该方法难以应用于复杂现实问题。

四、独立性:简化概率世界的魔法钥匙

若两个事件互不影响,则它们相互独立。这种结构特性极大降低了建模复杂度。

独立性的直观含义

两个事件独立 = 一个发生不影响另一个的概率

例子:
  A:第一次掷骰子得6
  B:第二次掷骰子得6
  P(B|A) = P(B) = 1/6
  → 独立(第一次结果不影响第二次)

反例:
  A:今天下雨
  B:地面湿
  P(B|A) > P(B)
  → 不独立(下雨增加地面湿的概率)

条件独立性:更精细的依赖关系刻画

文档12.4节关键概念:

三个变量X,Y,Z:
  X和Y在给定Z的条件下独立
  记作: (X ⊥ Y | Z)

含义:知道了Z,X就不能提供关于Y的额外信息

经典例子(文档12.2.2):
  X:草坪湿
  Y:下雨
  Z:洒水器开
  
  如果不知道Z:
    X和Y相关(草坪湿可能是因为下雨)
  
  如果已知Z=是(洒水器开了):
    X和Y独立(草坪湿已知是洒水器导致,与下雨无关)

当给定某些背景信息后,原本相关的变量可能变得无关,这种现象广泛存在于自然和社会系统中。

独立性如何实现高效计算?

没有独立性:
  P(A,B,C,D,E) 需要2?=32个参数

如果所有变量独立:
  P(A,B,C,D,E) = P(A)P(B)P(C)P(D)P(E)
  只需要5个参数!

现实通常介于两者之间:
  部分独立,部分条件独立
  → 贝叶斯网络的用武之地(第13章)

利用独立性和条件独立性,我们可以大幅压缩模型规模并加速推理过程。

五、贝叶斯法则:概率推理的多功能利器

作为概率推理的核心工具,贝叶斯法则允许我们根据新证据不断更新信念。

贝叶斯公式的形式表达

从条件概率定义出发:
P(A|B) = P(A,B) / P(B)  (1)
P(B|A) = P(A,B) / P(A)  (2)

由(2)得 P(A,B) = P(B|A)P(A)
代入(1):
P(A|B) = P(B|A)P(A) / P(B)

这就是贝叶斯法则!

公式解读:先验、似然与后验的关系

P(A|B):后验概率(我们想求的)
  “在观察到B后,A为真的概率”

P(B|A):似然(通常已知)
  “如果A为真,观察到B的可能性”

P(A):先验概率(我们的初始信念)
  “在观察任何证据前,A为真的概率”

P(B):证据概率(归一化常数)
  “观察到B的总概率”

应用实例1:简单医学诊断(参考文档12.5.1)

问题:某疾病发病率1%,检测准确率99%
      某人检测阳性,问实际患病的概率?

设:
  D:患病(先验P(D)=0.01)
  T:检测阳性
  
已知:
  P(T|D) = 0.99 (患者检测阳性概率)
  P(T|?D) = 0.01 (健康人误检概率)

求:P(D|T)

计算:
  P(D|T) = P(T|D)P(D) / P(T)
  P(T) = P(T|D)P(D) + P(T|?D)P(?D)
        = 0.99×0.01 + 0.01×0.99 = 0.0198
  
  所以:
  P(D|T) = (0.99×0.01) / 0.0198 ≈ 0.5

惊人结果:即使检测准确率99%,
          阳性者实际患病概率只有50%!
          因为疾病本身太罕见。

应用实例2:多证据融合推理(文档12.5.2)

现实:有多个证据源
  症状B:发烧
  症状C:咳嗽
  问疾病A的概率?

朴素方法(错误):
  P(A|B,C) ∝ P(B,C|A)P(A)
  但P(B,C|A)很难直接得到!

聪明方法:假设条件独立
  P(B,C|A) = P(B|A)P(C|A)
  如果症状在给定疾病下独立

则:
  P(A|B,C) ∝ P(B|A)P(C|A)P(A)

可以逐个证据更新:
  先根据发烧更新信念
  再根据咳嗽更新信念
  结果相同(因为乘法可交换)

应用实例3:垃圾邮件自动过滤(文档12.6节)

朴素贝叶斯分类器:
  判断邮件是垃圾(Spam)还是正常(Ham)

特征:邮件中的单词
  如:“免费”、“赚钱”、“发票”...

假设:单词在给定类别下条件独立
  (虽然不完全成立,但效果不错)

公式:
  P(Spam|单词1,单词2,...)
    ∝ P(Spam) × Π P(单词i|Spam)

训练:从已标注邮件统计
  P(单词|Spam):垃圾邮件中单词出现频率
  P(单词|Ham):正常邮件中单词出现频率

实际:Gmail等邮箱的早期过滤系统
      准确率可达99.9%

从疾病判断到信息分类,贝叶斯方法展现出强大的实用价值。

六、实战演练:重返Wumpus世界

回到经典的Wumpus世界环境,我们将对比传统逻辑推理与概率推理的表现差异。

Wumpus世界回顾

第7章的逻辑版Wumpus:
  - 用逻辑规则推理
  - 确定性地知道“有臭味→相邻有怪物”
  - 但现实:传感器有误差!

概率版Wumpus:
  - 臭味传感器:有怪物时80%报警,没有时10%误报
  - 需要概率推理!

引入概率后的推理流程

场景:智能体在(1,1),闻到臭味
      问:相邻格子(1,2)、(2,1)有怪物的概率?

已知:
  - 怪物在16个格子中的某一个
  - 先验:每个格子有怪物概率1/16
  - 传感器模型:
      P(臭味|相邻有怪物) = 0.8
      P(臭味|不相邻有怪物) = 0.1

计算:
  考虑所有可能的怪物位置
  根据传感器读数更新概率
  
结果:
  (1,2)和(2,1)的概率最高
  但非100%!可能传感器误报

与纯逻辑推理方式的对比分析

逻辑推理:
  “有臭味 → 相邻有怪物(100%确定)”
  如果传感器故障,结论错误

概率推理:
  “有臭味 → 相邻有怪物的概率从6.25%提升到~70%”
  但仍有30%可能是传感器误报
  更稳健,更符合现实

信念的持续动态更新机制

概率推理的优势:
  新证据到来 → 更新概率

例子:
  第一步:闻到臭味 → (1,2)怪物概率70%
  第二步:走到(1,2)没死 → 怪物概率下降
  第三步:在(2,1)闻到更浓臭味 → 概率重新上升
  
像侦探破案:随着线索积累,调整嫌疑度

在缺乏确定性线索时,概率方法仍能积累微弱证据,逐步形成可靠判断。

七、MYCIN系统的启示:概率与确定性因子的较量

早期医疗专家系统MYCIN采用了一种非传统的“确定性因子”(Certainty Factor, CF)方法来处理不确定性。

MYCIN系统背景介绍

1970年代斯坦福的专家系统
目标:诊断血液感染,推荐抗生素

挑战:
  1. 医学知识不确定
  2. 没有完美理论模型(不像DENDRAL的化学规则)
  3. 需要融合多个不确定证据

确定性因子的工作原理

MYCIN的简化概率:
  每个规则有确定性因子CF ∈ [-1, 1]
    CF = 1:完全确定
    CF = 0:完全不确定
    CF = -1:完全否定

组合规则:
  CF组合 = CF1 + CF2 - CF1×CF2 (同向)
  其他组合公式处理冲突证据

优点:
  - 医生直觉匹配(“很可能”、“不太可能”)
  - 计算简单
  - 不需要完整概率分布

CF方法与概率理论的本质区别

概率论:
  - 频率主义:长期重复中的比例
  - 贝叶斯主义:主观信念程度

确定性因子:
  - 实用主义:有效就行
  - 认知因素:反映确信程度,不一定是客观概率

MYCIN成功证明:
  有时“足够好”的近似比“完全正确”的理论更实用

虽然CF不具备严格的数学一致性,但在特定领域表现出良好的实用性。

其在AI发展史上的意义

MYCIN的影响:
1. 证明AI可达到专家水平(甚至超越初级医生)
2. 开创不确定推理的实用方法
3. 催生后续专家系统(如XCON配置系统)
4. 启发后来的概率图模型

文档提到:
  “MYCIN规则不得不从大量的专家访谈中获得”
  → 知识获取成为AI关键问题

八、哲学与历史视角:不确定性的思想演进

人类对不确定性的思考源远流长,从古典哲学走向现代统计学。

从亚里士多德到贝叶斯的思想脉络

文档1.1.3-1.1.4节的历史脉络:

1. 亚里士多德(公元前):
   - 三段论逻辑:确定推理
   - “苏格拉底是人,人皆有一死 → 苏格拉底会死”
   - 但无法处理“苏格拉底可能感冒”

2. 卡尔达诺(16世纪):
   - 首次系统研究概率(为了赌博!)
   - 《论赌博游戏》出版于死后(1663)

3. 帕斯卡与费马(1654):
   - 通信解决“点数问题”
   - 奠定期望值概念

4. 贝叶斯(18世纪):
   - 提出“逆概率”(后验概率)
   - 贝叶斯法则:根据新证据更新信念

统计学的诞生与发展

1662年:约翰·格兰特
  - 分析伦敦人口普查数据
  - 发现男婴出生率略高于女婴(51% vs 49%)
  - 开创人口统计学

1922年:罗纳德·费舍尔
  - 整合概率、实验设计、数据分析
  - 需要机械计算器“百万富翁”辅助
  - 感叹计算器比年薪还贵!

显示:概率理论需要计算工具支撑

人工智能中处理不确定性的演化路径

1950-60s:逻辑主义主导
  - 试图用逻辑规则描述一切
  - 遇到现实不确定性时崩溃

1970s:专家系统兴起
  - MYCIN的确定性因子
  - PROSPECTOR的贝叶斯网络雏形

1980s:概率图模型成熟
  - 贝叶斯网络(第13章)
  - 马尔可夫网络

1990s-现在:深度学习+概率
  - 神经网络输出概率分布
  - 贝叶斯深度学习
  - 不确定性的量化成为AI安全核心

本章思想实验精选

三门问题(又称蒙提霍尔问题)的反直觉解析

游戏规则:
  三扇门,一扇后有汽车,两扇后有山羊
  你选一扇(比如1号)
  主持人(知道答案)打开另一扇有山羊的(比如3号)
  问:该坚持原选,还是换到2号?

直觉:剩下两扇门,各50%概率有车
实际:换门胜率2/3,坚持胜率1/3

贝叶斯解释:
  设C?:车在1号,C?:车在2号,C?:车在3号
  初始:P(C?)=P(C?)=P(C?)=1/3
  
  主持人打开3号(H?):
    P(H?|C?)=1/2 (随机开2或3)
    P(H?|C?)=1   (只能开3,因2有车)
    P(H?|C?)=0   (不会开有车的)
  
  贝叶斯更新:
    P(C?|H?) = (1/2×1/3) / P(H?) = 1/3
    P(C?|H?) = (1×1/3) / P(H?) = 2/3
    
  所以该换!

新冠检测中的贝叶斯思维实践

现实版:
  疾病患病率:0.1%(先验)
  检测灵敏度:99%(患者中阳性率)
  检测特异度:99%(健康人中阴性率)
  
  检测阳性后,实际患病概率?
  
计算:
  P(病|阳) = (0.99×0.001) / [0.99×0.001 + 0.01×0.999]
           ≈ 9%
  
  即使检测“99%准确”,
  阳性者实际患病概率只有9%!
  因为疾病本身罕见。
  
启示:理解基础概率(先验)至关重要。

本章核心洞见总结

  • 概率不是模糊的借口,而是精确描述未知的工具
  • 确定性逻辑:
      “如果A,则B”
      非真即假
    
    概率逻辑:
      “如果A,则以概率p得到B”
      量化不确定性程度
  • 贝叶斯思维是一种持续演化的世界观:每一条新证据都应修正我们的信念
  • 贝叶斯推理的本质:
      先验信念 + 新证据 → 更新后的后验信念
      
    像科学方法:
      提出假设(先验)
      实验检验(收集证据)
      修正理论(后验)
      循环往复
  • 期望效用原则为不确定环境下的决策提供了清晰指引
  • 理性决策 = 最大化期望效用
      不是最大化“可能的最好结果”
      也不是最小化“可能的最坏结果”
      而是考虑所有可能性的加权平均
    
    这解释了:
      - 为什么买保险(小损失避免大灾难)
      - 为什么投资分散(不把所有鸡蛋放一个篮子)
      - 为什么理性人有时选择“次优但稳定”
  • 从MYCIN系统到当今深度学习模型,不确定性建模始终是AI进步的关键驱动力
  • 历史教训:
    1. 纯逻辑处理不了现实不确定性
    2. 实用近似有时比理论完美更有效
    3. 概率提供了统一框架,但计算是挑战
    4. 最终需要结合:
       - 概率理论(严谨)
       - 近似算法(可行)
       - 领域知识(有效)

下一章预告:迈向高维概率推理的新纪元 —— 第13章《概率推理》

我们已在第12章掌握了以下核心能力:

  • 使用概率量化不确定性
  • 运用贝叶斯法则动态更新信念
  • 在信息不全时做出理性决策

但挑战依然严峻:完全联合分布因“维度爆炸”而不可扩展。现实中常涉及数百甚至上千变量,穷举所有组合显然不现实。

第13章将揭晓解决方案:

如何利用“网络结构”高效表示和计算复杂的高维概率分布?

答案就是:贝叶斯网络——

  • 采用有向图表达变量间的依赖关系
  • 仅需存储局部条件概率表
  • 实现高效推理与预测

这项技术已成为现代AI中概率建模的基石。

从“概率计算”跃迁至“概率推理网络”,AI处理不确定性的能力将迎来指数级提升

本章结语

确定性是一种理想化的奢侈品,而不确定性才是现实世界的常态。

概率论并不意味着放弃精确,恰恰相反,它是以数学的严谨去拥抱现实的不完美。

从赌桌上的偶然规律,到医学诊断、垃圾邮件识别乃至自动驾驶决策,

贝叶斯法则教会AI:即使身处充满未知的世界,也能以理性之光照亮前行之路。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:不确定性 学习笔记 人工智能 习笔记 不确定
相关内容:人工智能学习笔记

沙发
mountainqin 发表于 2025-12-13 13:58:57
言简意赅,感谢分享~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 07:59