从“非黑即白”到“灰度世界”
在第11章中,我们向AI传授了如何制定“完美计划”的能力——但这一能力的前提是:AI必须完全掌握世界的每一个状态,并且所有动作的结果都具有百分之百的确定性。
然而现实却截然不同:
医生诊断:
“病人发烧咳嗽,是感冒还是肺炎?”
→ 不确定,需要检查
自动驾驶:
“前方物体是塑料袋还是石头?”
→ 不确定,需要谨慎
天气预报:
“明天降雨概率60%”
→ 不确定,但可以量化
本章核心问题:当信息不完整、证据模糊时,如何做出理性决策?
面对不确定性,人类与智能系统都需要一种更灵活的推理方式。本章将探索如何在知识不完备的情况下,依然保持逻辑上的合理性与决策上的最优性。
历史趣闻(来自文档补充)
1654年,法国赌徒梅雷骑士向数学家帕斯卡提问:
“两个赌徒提前结束赌局,如何公平分配赌注?”
帕斯卡与费马通信讨论,诞生了:
1. 概率论雏形
2. 期望值概念
3. 现代决策理论的基础
从此,数学开始处理“可能性”而非“确定性”。
一、理性决策框架:应对不确定性的三大支柱
在无法预知一切的情境下,理性行为不再体现为“绝对正确”的选择,而是基于当前可得信息,追求长期期望中的最优结果。
不确定性普遍存在于真实世界中,任何感知、测量或推理过程都可能带有误差和遗漏。
文档12.1.1节指出:
“我们对政治或战争规则的了解,
远不如对国际象棋或算术规则的了解。”
例子对比:
- 国际象棋:规则完全明确,状态完全可观测
- 医疗诊断:症状模糊,病因多重,检查有误差
- 自动驾驶:传感器噪声,行人意图未知
理性决策的三个关键要素:
理性决策 = 在不确定性中最大化“期望好处”
需要三个东西:
1. 可能结果集:会发生什么?
2. 概率分布:每个结果的可能性多大?
3. 效用函数:每个结果对我多“好”?
文档12.1.2节强调:
“概率论填补了逻辑的鸿沟...
允许我们在掌握不确定信息的情况下进行严格的推理。”
其中,“期望效用”充当了决策过程中的“数学良心”。它通过加权各种可能结果的效用及其发生概率,提供一个统一的评价标准。
公式:
期望效用 = Σ (结果i的概率 × 结果i的效用)
例子:是否带伞?
结果1:下雨(概率0.6),没伞 → 效用-50(淋湿)
结果2:下雨(概率0.6),带伞 → 效用-5(麻烦)
结果3:不下雨(概率0.4),没伞 → 效用+10(轻松)
结果4:不下雨(概率0.4),带伞 → 效用0(一般)
计算:
带伞的期望效用 = 0.6×(-5) + 0.4×0 = -3
不带伞的期望效用 = 0.6×(-50) + 0.4×10 = -26
理性选择:带伞(-3 > -26)
关键洞察: 理性并非要求每次都选对,而是在每一次判断中,依据已有信息做出平均意义上最有利的选择。
二、概率论:AI理解不确定性的语言体系
为了使机器能够形式化地表达“我不知道,但我可以估计”,我们需要一套严谨的语言工具——这正是概率论的作用所在。
基本的概率记号定义
文档12.2节系统介绍:
1. 样本空间Ω:所有可能结果的集合
掷骰子:Ω = {1,2,3,4,5,6}
2. 事件A:样本空间的子集
事件“偶数点”:A = {2,4,6}
3. 概率P(A):事件发生的可能性
公理:
a) 非负性:P(A) ≥ 0
b) 规范性:P(Ω) = 1
c) 可加性:互斥事件概率可加
4. 随机变量X:将结果映射到数值
骰子点数:X(1)=1, X(2)=2...
如何用语言表达概率断言?
两种表述方式:
1. 命题形式:
P(发烧 = 真 | 流感 = 真) = 0.9
“如果得了流感,那么发烧的概率是90%”
2. 概率密度形式(连续变量):
P(身高 = x) = f(x) (身高分布曲线)
为何概率公理是合理的?
柯尔莫哥洛夫公理体系(1933年):
1. 非负性:概率不能为负
→ 合理:可能性最小为0(不可能)
2. 规范性:总概率为1
→ 合理:所有可能结果覆盖100%
3. 可加性:互斥事件概率相加
→ 合理:A或B发生 = P(A)+P(B)
例:掷骰子得1或2的概率 = 1/6+1/6=1/3
这些公理如此自然,以至于我们常忘记它们是“规定”
而非“发现”。
这些公理不仅构成了数学基础,也反映了人类对随机事件一致性的直觉认知。
三、联合分布:构建完整的概率全景图
完全联合概率分布描述了所有变量组合下的可能性,相当于对整个世界的概率建模。
什么是完全联合分布?
假设只有三个布尔变量:
A:感冒(是/否)
B:发烧(是/否)
C:咳嗽(是/否)
完全联合分布 = 列出所有2?=8种组合的概率:
P(A=是, B=是, C=是) = 0.03
P(A=是, B=是, C=否) = 0.02
P(A=是, B=否, C=是) = 0.05
P(A=是, B=否, C=否) = 0.10
P(A=否, B=是, C=是) = 0.01
P(A=否, B=是, C=否) = 0.04
P(A=否, B=否, C=是) = 0.20
P(A=否, B=否, C=否) = 0.55
总和 = 1.00
如何从联合分布中进行推断?
文档12.3节核心方法:
问题:已知病人发烧,问感冒的概率?
步骤:
1. 找出所有“发烧=是”的情况:
(A=是,B=是,C=是): 0.03
(A=是,B=是,C=否): 0.02
(A=否,B=是,C=是): 0.01
(A=否,B=是,C=否): 0.04
总和 = 0.10
2. 其中“感冒=是”的情况:
(A=是,B=是,C=是): 0.03
(A=是,B=是,C=否): 0.02
总和 = 0.05
3. 条件概率:
P(感冒|发烧) = 0.05 / 0.10 = 0.5
结论:发烧的病人,有50%概率感冒。
尽管功能强大,这种方法存在明显短板:
联合分布的致命缺陷:维度爆炸
问题规模爆炸:
- 10个布尔变量 → 2?? = 1024种组合
- 20个布尔变量 → 2?? ≈ 100万种组合
- 100个变量 → 2??? ≈ 1.3×10??种组合
(比宇宙原子数还多)
存储不可能,计算更不可能!
需要更聪明的方法...
随着变量数量增加,所需存储和计算的空间呈指数增长,使得该方法难以应用于复杂现实问题。
四、独立性:简化概率世界的魔法钥匙
若两个事件互不影响,则它们相互独立。这种结构特性极大降低了建模复杂度。
独立性的直观含义
两个事件独立 = 一个发生不影响另一个的概率
例子:
A:第一次掷骰子得6
B:第二次掷骰子得6
P(B|A) = P(B) = 1/6
→ 独立(第一次结果不影响第二次)
反例:
A:今天下雨
B:地面湿
P(B|A) > P(B)
→ 不独立(下雨增加地面湿的概率)
条件独立性:更精细的依赖关系刻画
文档12.4节关键概念:
三个变量X,Y,Z:
X和Y在给定Z的条件下独立
记作: (X ⊥ Y | Z)
含义:知道了Z,X就不能提供关于Y的额外信息
经典例子(文档12.2.2):
X:草坪湿
Y:下雨
Z:洒水器开
如果不知道Z:
X和Y相关(草坪湿可能是因为下雨)
如果已知Z=是(洒水器开了):
X和Y独立(草坪湿已知是洒水器导致,与下雨无关)
当给定某些背景信息后,原本相关的变量可能变得无关,这种现象广泛存在于自然和社会系统中。
独立性如何实现高效计算?
没有独立性:
P(A,B,C,D,E) 需要2?=32个参数
如果所有变量独立:
P(A,B,C,D,E) = P(A)P(B)P(C)P(D)P(E)
只需要5个参数!
现实通常介于两者之间:
部分独立,部分条件独立
→ 贝叶斯网络的用武之地(第13章)
利用独立性和条件独立性,我们可以大幅压缩模型规模并加速推理过程。
五、贝叶斯法则:概率推理的多功能利器
作为概率推理的核心工具,贝叶斯法则允许我们根据新证据不断更新信念。
贝叶斯公式的形式表达
从条件概率定义出发:
P(A|B) = P(A,B) / P(B) (1)
P(B|A) = P(A,B) / P(A) (2)
由(2)得 P(A,B) = P(B|A)P(A)
代入(1):
P(A|B) = P(B|A)P(A) / P(B)
这就是贝叶斯法则!
公式解读:先验、似然与后验的关系
P(A|B):后验概率(我们想求的)
“在观察到B后,A为真的概率”
P(B|A):似然(通常已知)
“如果A为真,观察到B的可能性”
P(A):先验概率(我们的初始信念)
“在观察任何证据前,A为真的概率”
P(B):证据概率(归一化常数)
“观察到B的总概率”
应用实例1:简单医学诊断(参考文档12.5.1)
问题:某疾病发病率1%,检测准确率99%
某人检测阳性,问实际患病的概率?
设:
D:患病(先验P(D)=0.01)
T:检测阳性
已知:
P(T|D) = 0.99 (患者检测阳性概率)
P(T|?D) = 0.01 (健康人误检概率)
求:P(D|T)
计算:
P(D|T) = P(T|D)P(D) / P(T)
P(T) = P(T|D)P(D) + P(T|?D)P(?D)
= 0.99×0.01 + 0.01×0.99 = 0.0198
所以:
P(D|T) = (0.99×0.01) / 0.0198 ≈ 0.5
惊人结果:即使检测准确率99%,
阳性者实际患病概率只有50%!
因为疾病本身太罕见。
应用实例2:多证据融合推理(文档12.5.2)
现实:有多个证据源
症状B:发烧
症状C:咳嗽
问疾病A的概率?
朴素方法(错误):
P(A|B,C) ∝ P(B,C|A)P(A)
但P(B,C|A)很难直接得到!
聪明方法:假设条件独立
P(B,C|A) = P(B|A)P(C|A)
如果症状在给定疾病下独立
则:
P(A|B,C) ∝ P(B|A)P(C|A)P(A)
可以逐个证据更新:
先根据发烧更新信念
再根据咳嗽更新信念
结果相同(因为乘法可交换)
应用实例3:垃圾邮件自动过滤(文档12.6节)
朴素贝叶斯分类器:
判断邮件是垃圾(Spam)还是正常(Ham)
特征:邮件中的单词
如:“免费”、“赚钱”、“发票”...
假设:单词在给定类别下条件独立
(虽然不完全成立,但效果不错)
公式:
P(Spam|单词1,单词2,...)
∝ P(Spam) × Π P(单词i|Spam)
训练:从已标注邮件统计
P(单词|Spam):垃圾邮件中单词出现频率
P(单词|Ham):正常邮件中单词出现频率
实际:Gmail等邮箱的早期过滤系统
准确率可达99.9%
从疾病判断到信息分类,贝叶斯方法展现出强大的实用价值。
六、实战演练:重返Wumpus世界
回到经典的Wumpus世界环境,我们将对比传统逻辑推理与概率推理的表现差异。
Wumpus世界回顾
第7章的逻辑版Wumpus:
- 用逻辑规则推理
- 确定性地知道“有臭味→相邻有怪物”
- 但现实:传感器有误差!
概率版Wumpus:
- 臭味传感器:有怪物时80%报警,没有时10%误报
- 需要概率推理!
引入概率后的推理流程
场景:智能体在(1,1),闻到臭味
问:相邻格子(1,2)、(2,1)有怪物的概率?
已知:
- 怪物在16个格子中的某一个
- 先验:每个格子有怪物概率1/16
- 传感器模型:
P(臭味|相邻有怪物) = 0.8
P(臭味|不相邻有怪物) = 0.1
计算:
考虑所有可能的怪物位置
根据传感器读数更新概率
结果:
(1,2)和(2,1)的概率最高
但非100%!可能传感器误报
与纯逻辑推理方式的对比分析
逻辑推理:
“有臭味 → 相邻有怪物(100%确定)”
如果传感器故障,结论错误
概率推理:
“有臭味 → 相邻有怪物的概率从6.25%提升到~70%”
但仍有30%可能是传感器误报
更稳健,更符合现实
信念的持续动态更新机制
概率推理的优势:
新证据到来 → 更新概率
例子:
第一步:闻到臭味 → (1,2)怪物概率70%
第二步:走到(1,2)没死 → 怪物概率下降
第三步:在(2,1)闻到更浓臭味 → 概率重新上升
像侦探破案:随着线索积累,调整嫌疑度
在缺乏确定性线索时,概率方法仍能积累微弱证据,逐步形成可靠判断。
七、MYCIN系统的启示:概率与确定性因子的较量
早期医疗专家系统MYCIN采用了一种非传统的“确定性因子”(Certainty Factor, CF)方法来处理不确定性。
MYCIN系统背景介绍
1970年代斯坦福的专家系统
目标:诊断血液感染,推荐抗生素
挑战:
1. 医学知识不确定
2. 没有完美理论模型(不像DENDRAL的化学规则)
3. 需要融合多个不确定证据
确定性因子的工作原理
MYCIN的简化概率:
每个规则有确定性因子CF ∈ [-1, 1]
CF = 1:完全确定
CF = 0:完全不确定
CF = -1:完全否定
组合规则:
CF组合 = CF1 + CF2 - CF1×CF2 (同向)
其他组合公式处理冲突证据
优点:
- 医生直觉匹配(“很可能”、“不太可能”)
- 计算简单
- 不需要完整概率分布
CF方法与概率理论的本质区别
概率论:
- 频率主义:长期重复中的比例
- 贝叶斯主义:主观信念程度
确定性因子:
- 实用主义:有效就行
- 认知因素:反映确信程度,不一定是客观概率
MYCIN成功证明:
有时“足够好”的近似比“完全正确”的理论更实用
虽然CF不具备严格的数学一致性,但在特定领域表现出良好的实用性。
其在AI发展史上的意义
MYCIN的影响:
1. 证明AI可达到专家水平(甚至超越初级医生)
2. 开创不确定推理的实用方法
3. 催生后续专家系统(如XCON配置系统)
4. 启发后来的概率图模型
文档提到:
“MYCIN规则不得不从大量的专家访谈中获得”
→ 知识获取成为AI关键问题
八、哲学与历史视角:不确定性的思想演进
人类对不确定性的思考源远流长,从古典哲学走向现代统计学。
从亚里士多德到贝叶斯的思想脉络
文档1.1.3-1.1.4节的历史脉络:
1. 亚里士多德(公元前):
- 三段论逻辑:确定推理
- “苏格拉底是人,人皆有一死 → 苏格拉底会死”
- 但无法处理“苏格拉底可能感冒”
2. 卡尔达诺(16世纪):
- 首次系统研究概率(为了赌博!)
- 《论赌博游戏》出版于死后(1663)
3. 帕斯卡与费马(1654):
- 通信解决“点数问题”
- 奠定期望值概念
4. 贝叶斯(18世纪):
- 提出“逆概率”(后验概率)
- 贝叶斯法则:根据新证据更新信念
统计学的诞生与发展
1662年:约翰·格兰特
- 分析伦敦人口普查数据
- 发现男婴出生率略高于女婴(51% vs 49%)
- 开创人口统计学
1922年:罗纳德·费舍尔
- 整合概率、实验设计、数据分析
- 需要机械计算器“百万富翁”辅助
- 感叹计算器比年薪还贵!
显示:概率理论需要计算工具支撑
人工智能中处理不确定性的演化路径
1950-60s:逻辑主义主导
- 试图用逻辑规则描述一切
- 遇到现实不确定性时崩溃
1970s:专家系统兴起
- MYCIN的确定性因子
- PROSPECTOR的贝叶斯网络雏形
1980s:概率图模型成熟
- 贝叶斯网络(第13章)
- 马尔可夫网络
1990s-现在:深度学习+概率
- 神经网络输出概率分布
- 贝叶斯深度学习
- 不确定性的量化成为AI安全核心
本章思想实验精选
三门问题(又称蒙提霍尔问题)的反直觉解析
游戏规则:
三扇门,一扇后有汽车,两扇后有山羊
你选一扇(比如1号)
主持人(知道答案)打开另一扇有山羊的(比如3号)
问:该坚持原选,还是换到2号?
直觉:剩下两扇门,各50%概率有车
实际:换门胜率2/3,坚持胜率1/3
贝叶斯解释:
设C?:车在1号,C?:车在2号,C?:车在3号
初始:P(C?)=P(C?)=P(C?)=1/3
主持人打开3号(H?):
P(H?|C?)=1/2 (随机开2或3)
P(H?|C?)=1 (只能开3,因2有车)
P(H?|C?)=0 (不会开有车的)
贝叶斯更新:
P(C?|H?) = (1/2×1/3) / P(H?) = 1/3
P(C?|H?) = (1×1/3) / P(H?) = 2/3
所以该换!
新冠检测中的贝叶斯思维实践
现实版:
疾病患病率:0.1%(先验)
检测灵敏度:99%(患者中阳性率)
检测特异度:99%(健康人中阴性率)
检测阳性后,实际患病概率?
计算:
P(病|阳) = (0.99×0.001) / [0.99×0.001 + 0.01×0.999]
≈ 9%
即使检测“99%准确”,
阳性者实际患病概率只有9%!
因为疾病本身罕见。
启示:理解基础概率(先验)至关重要。
本章核心洞见总结
- 概率不是模糊的借口,而是精确描述未知的工具
确定性逻辑:
“如果A,则B”
非真即假
概率逻辑:
“如果A,则以概率p得到B”
量化不确定性程度
贝叶斯推理的本质:
先验信念 + 新证据 → 更新后的后验信念
像科学方法:
提出假设(先验)
实验检验(收集证据)
修正理论(后验)
循环往复
理性决策 = 最大化期望效用
不是最大化“可能的最好结果”
也不是最小化“可能的最坏结果”
而是考虑所有可能性的加权平均
这解释了:
- 为什么买保险(小损失避免大灾难)
- 为什么投资分散(不把所有鸡蛋放一个篮子)
- 为什么理性人有时选择“次优但稳定”
历史教训:
1. 纯逻辑处理不了现实不确定性
2. 实用近似有时比理论完美更有效
3. 概率提供了统一框架,但计算是挑战
4. 最终需要结合:
- 概率理论(严谨)
- 近似算法(可行)
- 领域知识(有效)
下一章预告:迈向高维概率推理的新纪元 —— 第13章《概率推理》
我们已在第12章掌握了以下核心能力:
- 使用概率量化不确定性
- 运用贝叶斯法则动态更新信念
- 在信息不全时做出理性决策
但挑战依然严峻:完全联合分布因“维度爆炸”而不可扩展。现实中常涉及数百甚至上千变量,穷举所有组合显然不现实。
第13章将揭晓解决方案:
如何利用“网络结构”高效表示和计算复杂的高维概率分布?
答案就是:贝叶斯网络——
- 采用有向图表达变量间的依赖关系
- 仅需存储局部条件概率表
- 实现高效推理与预测
这项技术已成为现代AI中概率建模的基石。
从“概率计算”跃迁至“概率推理网络”,AI处理不确定性的能力将迎来指数级提升!
本章结语
确定性是一种理想化的奢侈品,而不确定性才是现实世界的常态。
概率论并不意味着放弃精确,恰恰相反,它是以数学的严谨去拥抱现实的不完美。
从赌桌上的偶然规律,到医学诊断、垃圾邮件识别乃至自动驾驶决策,
贝叶斯法则教会AI:即使身处充满未知的世界,也能以理性之光照亮前行之路。


雷达卡


京公网安备 11010802022788号







