02 — 概率论与机器学习（Probability Theory for ML）

概率论（Probability Theory）是机器学习的核（kernel /ˈkɜːrnl/）心语言。几乎所有 ML 算法——从线性回归（regression /rɪˈɡreʃən/）的损失函数到贝叶斯推断，从随机（stochastic /stəˈkæstɪk/）梯度（gradient /ˈɡreɪdiənt/）下降到生成模型——都建立在概率论的基础之上。本章从概率分布出发，逐步展开贝叶斯定理、最大似然估计（MLE）、最大后验估计（MAP）以及期望与方差等核心概念，为后续理解各类 ML 模型打下坚实的数学基础。

1. 概率分布（Probability Distributions）

1.1 随机变量（Random Variable）

随机变量（Random Variable） 是将随机试验的结果映射为数值的函数，分为两类：

类型	取值	示例
离散型（Discrete）	可数有限个或可数无限个	硬币正面次数、骰子点数
连续型（Continuous）	某个区间内的任意实数	身高、温度、房价

1.2 概率质量函数（PMF）与概率密度函数（PDF）

PMF（Probability Mass Function）：描述离散随机变量取某个特定值的概率，满足 $p (x) \geq 0$ 且 $\sum_{x} p (x) = 1$ 。
PDF（Probability Density Function）：描述连续随机变量在某个点处的"密度"，满足 $f (x) \geq 0$ 且 $\int_{- \infty}^{\infty} f (x) d x = 1$ 。某区间内的概率为 PDF 在该区间上的积分： $P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$ 。

1.3 伯努利分布（Bernoulli Distribution）

伯努利分布（Bernoulli Distribution） 建模单次二值试验的结果，如抛一次硬币是否正面朝上。

参数（parameter /pəˈræmɪtər/）： $p \in [0, 1]$ —— 正面（ $x = 1$ ）的概率。

PMF：

p (x ∣ p) = p^{x} (1 - p)^{1 - x}, x \in {0, 1}

当 $x = 1$ 时， $p (1) = p$
当 $x = 0$ 时， $p (0) = 1 - p$

期望与方差： $E [X] = p$ , $Var [X] = p (1 - p)$

1.4 二项分布（Binomial Distribution）

二项分布（Binomial Distribution） 建模 $n$ 次独立同分布的伯努利试验中成功次数的分布。

参数： $n \in N^{+}$ （试验次数）, $p \in [0, 1]$ （单次成功概率）。

PMF：

p (k ∣ n, p) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n

其中 $(\binom{n}{k}) = \frac{n!}{k! (n - k)!}$ 是组合数（二项式系数）。

期望与方差： $E [X] = n p$ , $Var [X] = n p (1 - p)$

直觉：二项分布是伯努利分布的"重复版本"。当 $n = 1$ 时，二项分布退化为伯努利分布。

1.5 正态分布 / 高斯分布（Normal / Gaussian Distribution）

正态分布（Normal Distribution），也称高斯分布（Gaussian Distribution），是概率论中最核心的连续分布。中心极限定理（Central Limit Theorem）保证了大量独立随机变量之和趋近于正态分布，因此它在自然界和 ML 中无处不在。

参数： $μ \in R$ （均值，Mean）, $σ^{2} > 0$ （方差，Variance），常记作 $N (μ, σ^{2})$ 。

PDF：

f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})

性质：

PDF 关于 $x = μ$ 对称
$μ$ 控制分布的中心位置， $σ$ 控制分布的宽度（标准差，Standard Deviation）
68-95-99.7 法则：约 68% 的数据落在 $μ \pm σ$ 内，95% 在 $μ \pm 2 σ$ 内，99.7% 在 $μ \pm 3 σ$ 内

联系与区别：伯努利和二项分布是离散分布，用于分类（classification /ˌklæsɪfɪˈkeɪʃən/）问题中的标签建模；正态分布是连续分布，广泛用于回归任务中的误差建模和参数初始化。

1.6 类别分布 / 多项分布（Categorical / Multinomial Distribution）

类别分布（Categorical Distribution） 是伯努利分布从 2 类到 $K$ 类的推广，建模单次 $K$ 值试验的结果（如掷 $K$ 面骰子）。多项分布（Multinomial Distribution） 则是 $n$ 次独立类别试验的联合分布。

类别分布参数： $π = (π_{1}, \dots, π_{K})$ ，满足 $π_{k} \geq 0$ 且 $\sum_{k = 1}^{K} π_{k} = 1$ 。

类别分布 PMF：

p (x ∣ π) = \prod_{k = 1}^{K} π_{k}^{I [x = k]}

其中 $I [\cdot]$ 是指示函数（Indicator Function）。

多项分布 PMF（ $n$ 次试验，第 $k$ 类出现 $n_{k}$ 次）：

p (n_{1}, \dots, n_{K} ∣ n, π) = \frac{n!}{n_{1}! \dots n_{K}!} \prod_{k = 1}^{K} π_{k}^{n_{k}}

多项分布在 ML 中用于建模文本的词袋表示（Bag-of-Words）和分类问题的标签分布。

2. 条件概率与贝叶斯定理（Bayes' Theorem）

2.1 条件概率（Conditional Probability）

条件概率 $P (A ∣ B)$ 表示在事件 $B$ 已发生的条件下事件 $A$ 发生的概率：

P (A ∣ B) = \frac{P (A \cap B)}{P (B)}, P (B) > 0

乘法定理（Multiplication Rule）由上式直接可得：

P (A \cap B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)

2.2 全概率公式（Law of Total Probability）

若事件 $B_{1}, B_{2}, \dots, B_{K}$ 构成样本空间的一个划分（即互不相交且并集为全集），则对任意事件 $A$ ：

P (A) = \sum_{k = 1}^{K} P (A ∣ B_{k}) P (B_{k})

2.3 贝叶斯定理（Bayes' Theorem）

贝叶斯定理将先验知识与观测数据结合，得到后验概率：

P (B_{i} ∣ A) = \frac{P (A ∣ B_{i}) P (B_{i})}{P (A)} = \frac{P (A ∣ B_{i}) P (B_{i})}{\sum_{j = 1}^{K} P (A ∣ B_{j}) P (B_{j})}

在 ML 中，我们通常写成以下形式：

P (θ ∣ D) = \frac{P (D ∣ θ) P (θ)}{P (D)}

其中：

符号	名称	含义
$P (θ)$	先验（Prior）	观测数据之前，我们对参数 $θ$ 的信念
$P (D ∣ θ)$	似然（Likelihood）	在参数 $θ$ 下，数据 $D$ 出现的概率
$P (D)$	证据（Evidence）	数据出现的总概率（归一化（normalization /ˌnɔːrmələˈzeɪʃən/）常数）
$P (θ ∣ D)$	后验（Posterior）	观测数据之后，我们对 $θ$ 更新的信念

推导：由乘法定理， $P (θ \cap D) = P (D ∣ θ) P (θ) = P (θ ∣ D) P (D)$ ，两边除以 $P (D)$ 即得上式。

2.4 经典案例：医学检测（Medical Test）

设某种疾病的患病率 $P (病) = 0.01$ （先验）。检测方法的灵敏度（Sensitivity） $P (+ ∣ 病) = 0.99$ ，特异度（Specificity） $P (- ∣ 无病) = 0.95$ 。

若一个人检测结果为阳性（+），其真正患病的概率是多少？

P (病 ∣ +) = \frac{P (+ ∣ 病) P (病)}{P (+ ∣ 病) P (病) + P (+ ∣ 无病) P (无病)} = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \approx 0.167

直觉：即使检测灵敏度很高，由于患病率很低（1%），阳性结果的实际患病概率只有约 16.7%。这就是为什么大规模筛查中假阳性率不可忽视。

3. 最大似然估计 MLE（Maximum Likelihood Estimation）

3.1 核心思想

最大似然估计（MLE, Maximum Likelihood Estimation） 的核心问题是：给定观测数据 $D = {x_{1}, \dots, x_{n}}$ ，哪个参数 $θ$ 最有可能生成这些数据？

MLE 选择使似然函数（Likelihood Function） $P (D ∣ θ)$ 最大的 $θ$ ：

{\hat{θ}}_{MLE} = \arg max_{θ} P (D ∣ θ)

3.2 似然函数 vs 概率密度函数

两者在数学形式上相同，但视角不同：

PDF/PMF：给定 $θ$ ，描述数据 $x$ 的分布 —— 是 $x$ 的函数
似然：给定观测数据 $D$ ，描述参数 $θ$ 的"解释能力" —— 是 $θ$ 的函数

L (θ ∣ D) = P (D ∣ θ)

3.3 MLE 实例：估计高斯分布的均值与方差

假设数据 ${x_{1}, \dots, x_{n}}$ 独立同分布（i.i.d.）于 $N (μ, σ^{2})$ 。

Step 1：写出似然函数

P (D ∣ μ, σ^{2}) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x_{i} - μ)^{2}}{2 σ^{2}})

Step 2：取对数（Log-Likelihood） —— 将乘积变为求和，便于求导

ℓ (μ, σ^{2}) = \log P (D ∣ μ, σ^{2}) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log (σ^{2}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2}

Step 3：对 $μ$ 求偏导并令其为零

\frac{\partial ℓ}{\partial μ} = \frac{1}{σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ) = 0 \Rightarrow \sum_{i = 1}^{n} x_{i} - n μ = 0 \Rightarrow {\hat{μ}}_{MLE} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

MLE 对均值的估计就是样本均值（Sample Mean）。

Step 4：对 $σ^{2}$ 求偏导并令其为零

\frac{\partial ℓ}{\partial σ^{2}} = - \frac{n}{2} \cdot \frac{1}{σ^{2}} + \frac{1}{2 (σ^{2})^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2} = 0

\Rightarrow {\hat{σ}}_{MLE}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - {\hat{μ}}_{MLE})^{2}

注意： ${\hat{σ}}_{MLE}^{2}$ 是有偏估计（Biased Estimator），分母为 $n$ 而非 $n - 1$ 。样本方差（Sample Variance）常用无偏估计 $S^{2} = \frac{1}{n - 1} \sum (x_{i} - \bar{x})^{2}$ ，分母 $n - 1$ 来自自由度修正。

3.4 MLE 的一般步骤

假设数据服从某个参数化分布 $P (x ∣ θ)$
写出似然函数 $L (θ ∣ D) = \prod_{i = 1}^{n} P (x_{i} ∣ θ)$
取对数得到 Log-Likelihood $ℓ (θ)$
对参数 $θ$ 求偏导，令导数为零
解出 ${\hat{θ}}_{MLE}$ （可能需要数值优化）

4. 最大后验估计 MAP（Maximum A Posteriori Estimation）

4.1 从 MLE 到 MAP

MLE 只关注数据拟合，但当数据量少时，MLE 容易过拟合（overfitting /ˈoʊvərˈfɪtɪŋ/）（Overfitting）。MAP 引入先验（Prior） $P (θ)$ ，结合数据的似然，最大化后验概率：

{\hat{θ}}_{MAP} = \arg max_{θ} P (θ ∣ D) = \arg max_{θ} \frac{P (D ∣ θ) P (θ)}{P (D)}

由于 $P (D)$ 与 $θ$ 无关，等价于：

{\hat{θ}}_{MAP} = \arg max_{θ} P (D ∣ θ) P (θ)

取对数形式：

{\hat{θ}}_{MAP} = \arg max_{θ} [\underset{Log-Likelihood}{\underset{⏟}{\log P (D ∣ θ)}} + \underset{Log-Prior}{\underset{⏟}{\log P (θ)}}]

4.2 MAP vs MLE

方面	MLE	MAP
优化目标	$max \log P (D ∣ θ)$	$max [\log P (D ∣ θ) + \log P (θ)]$
先验信息	不使用	使用
数据量少时	容易过拟合	更稳健（Regularized）
当先验为均匀分布	—	MAP = MLE
计算复杂度	较低	略高（需要额外乘先验）

4.3 MAP 与正则化（Regularization）的联系

取高斯先验 $θ \sim N (0, λ^{- 1})$ ，其对数形式为 $\log P (θ) = - \frac{λ}{2} θ^{2} + const$ 。

MAP 的优化目标变为：

{\hat{θ}}_{MAP} = \arg max_{θ} [\log P (D ∣ θ) - \frac{λ}{2} θ^{2}]

等价于最小化带 L2 正则化（regularization /ˌreɡjələraɪˈzeɪʃən/）（L2 Regularization） 的负对数似然（Negative Log-Likelihood）：

{\hat{θ}}_{MAP} = \arg min_{θ} [- \log P (D ∣ θ) + \frac{λ}{2} ∥ θ ∥^{2}]

这正是岭回归（Ridge Regression） 的损失函数！类似地，拉普拉斯先验（Laplace Prior）对应 L1 正则化（Lasso）。

核心 insight：从贝叶斯角度看，正则化不是人为的技巧，而是对参数施加先验分布的自然结果。

5. 期望、方差与协方差（Expectation, Variance, Covariance）

5.1 期望（Expectation / Expected Value）

期望是随机变量在概率意义上的"加权平均"。

类型	定义	公式
离散型	$E [X] = \sum_{x} x p (x)$	每个可能值乘以其概率后求和
连续型	$E [X] = \int_{- \infty}^{\infty} x f (x) d x$	对 PDF 进行加权积分

期望的线性性质（Linearity of Expectation） —— 非常强大且常用：

E [a X + b Y] = a E [X] + b E [Y]

无论 $X$ 和 $Y$ 是否独立，这一性质都成立。

对函数的期望（Law of the Unconscious Statistician, LOTUS）：

E [g (X)] = {\begin{cases} \sum_{x} g (x) p (x), & 离散 \\ \int_{- \infty}^{\infty} g (x) f (x) d x, & 连续 \end{cases}

5.2 方差（Variance）

方差衡量随机变量围绕其均值的离散程度：

Var [X] = E [(X - E [X])^{2}] = E [X^{2}] - (E [X])^{2}

标准差（Standard Deviation）： $σ_{X} = \sqrt{Var [X]}$ ，与 $X$ 量纲相同。

性质：

$Var [a X + b] = a^{2} Var [X]$ （常数平移不影响方差）
$Var [X + Y] = Var [X] + Var [Y] + 2 Cov [X, Y]$

5.3 协方差与相关系数（Covariance & Correlation）

协方差（Covariance） 衡量两个随机变量共同变化的程度：

Cov [X, Y] = E [(X - E [X]) (Y - E [Y])] = E [X Y] - E [X] E [Y]

性质：

$Cov [X, X] = Var [X]$
若 $X$ 与 $Y$ 独立，则 $Cov [X, Y] = 0$ （但反之不成立）
$Cov [a X + b, c Y + d] = a c Cov [X, Y]$

相关系数（Correlation Coefficient） 将协方差归一化到 $[- 1, 1]$ 区间：

ρ_{X, Y} = \frac{Cov [X, Y]}{σ_{X} σ_{Y}}

$ρ = 1$ ：完全正相关； $ρ = - 1$ ：完全负相关； $ρ = 0$ ：不相关

5.4 协方差矩阵（Covariance Matrix）

对于 $D$ 维随机向量 $X = (X_{1}, \dots, X_{D})^{⊤}$ ，协方差矩阵 $Σ$ 是一个 $D \times D$ 的对称半正定矩阵：

Σ_{i j} = Cov [X_{i}, X_{j}]

Σ = E [(X - E [X]) (X - E [X])^{⊤}]

协方差矩阵在 ML 中无处不在：

多元高斯分布（Multivariate Gaussian） 的 PDF 直接使用 $Σ$
PCA 对协方差矩阵做特征值分解
线性判别分析（LDA） 使用类内协方差矩阵

5.5 全期望公式（Law of Total Expectation）

全期望公式（Law of Total Expectation / Law of Iterated Expectations） 是一个经常用到但容易被忽视的有用公式：

E [X] = E [E [X ∣ Y]]

含义：整体期望 = 条件期望的期望。即先对每个 $Y$ 取值求条件期望，再对 $Y$ 的分布求加权平均。

推导（离散情况）：

E [E [X ∣ Y]] = \sum_{y} E [X ∣ Y = y] P (Y = y) = \sum_{y} \sum_{x} x P (X = x ∣ Y = y) P (Y = y) = \sum_{x} x \sum_{y} P (X = x, Y = y) = \sum_{x} x P (X = x) = E [X]

6. 本章小结

概念	要点	ML 中的典型用途
伯努利分布	单次二值试验，参数 $p$	二分类标签建模
二项分布	$n$ 次独立伯努利试验的成功次数	评估指标（Accuracy 的分布）
正态分布	$N (μ, σ^{2})$ ，中心极限定理	误差项、参数初始化、特征归一化
贝叶斯定理	$P (θ ∣ D) \propto P (D ∣ θ) P (θ)$	贝叶斯推断、朴素贝叶斯分类器
MLE	$max \log P (D ∣ θ)$	线性回归、逻辑回归的参数估计
MAP	$max [\log Likelihood + \log Prior]$	带正则化的模型训练
期望	概率加权平均 $E [X]$	损失函数（风险）的定义
方差/协方差	离散度 / 共变程度	PCA、特征选择、正态分布参数

7. 进一步阅读

下一章：03 — 信息论基础（Information Theory for ML）

配套代码：probability_demo.py — 分布可视化、贝叶斯计算、MLE 数值验证

02 — 概率论与机器学习（Probability Theory for ML） ​

1. 概率分布（Probability Distributions） ​

1.1 随机变量（Random Variable） ​

1.2 概率质量函数（PMF）与概率密度函数（PDF） ​

1.3 伯努利分布（Bernoulli Distribution） ​

1.4 二项分布（Binomial Distribution） ​

1.5 正态分布 / 高斯分布（Normal / Gaussian Distribution） ​

1.6 类别分布 / 多项分布（Categorical / Multinomial Distribution） ​

2. 条件概率与贝叶斯定理（Bayes' Theorem） ​

2.1 条件概率（Conditional Probability） ​

2.2 全概率公式（Law of Total Probability） ​

2.3 贝叶斯定理（Bayes' Theorem） ​

2.4 经典案例：医学检测（Medical Test） ​

3. 最大似然估计 MLE（Maximum Likelihood Estimation） ​

3.1 核心思想 ​

3.2 似然函数 vs 概率密度函数 ​

3.3 MLE 实例：估计高斯分布的均值与方差 ​

3.4 MLE 的一般步骤 ​

4. 最大后验估计 MAP（Maximum A Posteriori Estimation） ​

4.1 从 MLE 到 MAP ​

4.2 MAP vs MLE ​

4.3 MAP 与正则化（Regularization）的联系 ​

5. 期望、方差与协方差（Expectation, Variance, Covariance） ​

5.1 期望（Expectation / Expected Value） ​

5.2 方差（Variance） ​

5.3 协方差与相关系数（Covariance & Correlation） ​

5.4 协方差矩阵（Covariance Matrix） ​

5.5 全期望公式（Law of Total Expectation） ​

6. 本章小结 ​

7. 进一步阅读 ​