CHAPTER 7
✓ 已完成
🎲

贝叶斯分类器

Bayesian Classifier

学习目标

🎯
  • 理解贝叶斯决策论的基本原理和最优性
  • 掌握极大似然估计和最大后验估计的区别
  • 理解朴素贝叶斯分类器的"朴素"假设及其影响
  • 掌握拉普拉斯修正处理零概率问题
  • 了解半朴素贝叶斯和贝叶斯网的基本思想
7.1

贝叶斯决策论

📐

贝叶斯定理

贝叶斯定理是贝叶斯学派的基石,描述了在获得新证据后如何更新我们的信念:

贝叶斯定理:

P(c|x) = P(x|c)·P(c) / P(x)

P(c|x)

后验概率

P(x|c)

似然

P(c)

先验概率

P(x)

证据因子

核心思想: 后验概率 = (似然 × 先验) / 证据。通过观察数据x,更新对类别c的认知。

⚖️

贝叶斯判定准则

为最小化总体风险,贝叶斯判定准则选择使后验概率最大的类别:

判定规则:

h*(x) = argmax P(c|x)
⇓ 等价于
h*(x) = argmax P(x|c)·P(c)
✓ 优势
  • • 理论最优(最小化期望风险)
  • • 融合先验知识
  • • 可解释性强
⚠️ 挑战
  • • 需要知道先验概率
  • • 需要估计类条件概率
  • • 计算复杂度可能很高
🎮

贝叶斯分类演示

可视化贝叶斯分类器的决策边界和后验概率分布(开发中)

🚧

交互式演示开发中

敬请期待!

7.2

极大似然估计

📊

参数估计

极大似然估计(MLE)是频率学派估计参数的标准方法:选择使观测数据出现概率最大的参数

似然函数:

L(θ) = P(D|θ) = ∏P(xi|θ)
⇓ 对数似然
ℓ(θ) = log L(θ) = Σlog P(xi|θ)
⇓ 最大化
θ̂MLE = argmax ℓ(θ)

为什么用对数: 将连乘变为求和,便于计算和优化,且不改变最优解。

🎯

MLE vs MAP

极大似然估计 (MLE)
θ̂MLE = argmax P(D|θ)
  • 频率学派观点
  • 不考虑先验知识
  • 数据充足时效果好
最大后验估计 (MAP)
θ̂MAP = argmax P(θ|D)
  • 贝叶斯学派观点
  • 融合先验 P(θ)
  • 数据稀少时更稳健
7.3

朴素贝叶斯分类器

🎭

'朴素'的假设

朴素贝叶斯分类器基于一个强假设:属性条件独立性假设。 虽然这个假设在现实中往往不成立,但朴素贝叶斯在实践中表现出奇地好!

条件独立性假设

完整的类条件概率:

P(x|c) = P(x₁,x₂,...,xd|c)

参数数量随维度指数增长!

⬇ 朴素假设

简化后:

P(x|c) = ∏P(xi|c)

参数数量线性增长!

✓ 为什么有效?
  • • 降低模型复杂度,避免过拟合
  • • 所需训练数据量大幅减少
  • • 训练和预测都非常快速
  • • 即使假设不完全成立,分类效果仍然不错
⚠️ 局限性
  • • 无法表达属性间的相关性
  • • 预测的概率值不够准确
  • • 特征高度相关时性能下降
🔧

拉普拉斯修正

当训练集中某个属性值在某个类别下从未出现时,会导致零概率问题: 整个后验概率都会变成0!

问题

如果某个P(xi|c) = 0:

P(c|x) = 0 × ... = 0

一个零值毁掉整个结果!

解决方案

拉普拉斯修正(加1平滑):

P̂(xi|c) = (Nic + 1) / (Nc + Ni)

确保所有概率都非零

朴素贝叶斯分类交互演示

经典的"打网球"问题:根据天气条件预测是否适合打网球,理解贝叶斯公式的计算过程

测试样本

预测结果

打球 = 是76.8%
76.8%
打球 = 否23.2%
最终预测
适合打球

训练数据集 (14 条)

天气温度湿度风力打球
适中
正常
正常
正常
适中
正常
适中正常
适中正常
适中
正常
适中

💡 朴素贝叶斯公式

P(c|x) = P(c) × ∏ᵢ P(xᵢ|c) / P(x)
  • 条件独立假设:假设特征之间相互独立
  • 拉普拉斯平滑:避免零概率问题,P(x|c) = (count + 1) / (total + N)
  • 归一化:使后验概率和为1
7.4

半朴素贝叶斯分类器

🔓

放松独立性假设

半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖信息, 在模型复杂度分类性能之间寻求平衡。

SPODE

Super-Parent ODE
所有属性依赖于同一个超父属性

TAN

Tree Augmented Naive Bayes
属性间形成树状依赖结构

AODE

Averaged ODE
集成多个SPODE模型

核心思想: 在朴素贝叶斯(完全独立)和贝叶斯网(任意依赖)之间找到平衡点。

7.5

贝叶斯网

🕸️

概率图模型

贝叶斯网(Bayesian Network) 借助有向无环图(DAG)来刻画属性之间的依赖关系, 并使用条件概率表(CPT)来描述属性的联合概率分布。

贝叶斯网的组成
1. 结构(网络拓扑)
  • • 节点表示随机变量
  • • 有向边表示依赖关系
  • • 必须是有向无环图(DAG)
  • • 父节点影响子节点
2. 参数(CPT)
  • • 每个节点有条件概率表
  • • P(X|Parents(X))
  • • 根节点只有先验概率
  • • 通过数据学习参数

联合概率分解: P(x₁,...,xn) = ∏P(xi|Parents(xi))

🎓

推断与学习

推断问题

给定证据变量的观测值,计算查询变量的后验概率分布

  • • 精确推断:变量消除
  • • 近似推断:吉布斯采样
学习问题

从数据中学习贝叶斯网的结构和参数

  • • 参数学习:MLE/MAP
  • • 结构学习:评分搜索
📝

本章小结

贝叶斯定理提供了从先验概率和似然得到后验概率的原理性框架

贝叶斯判定准则在理论上是最优的,最小化期望风险

朴素贝叶斯通过属性条件独立性假设大幅简化计算,虽然假设强但实际效果好

拉普拉斯修正是处理零概率问题的标准方法,确保所有概率非零

半朴素贝叶斯和贝叶斯网在模型复杂度和性能之间寻求更好的平衡

贝叶斯方法特别适合小样本场景和需要融合先验知识的情况