Skip to content

02 — 概率论与机器学习(Probability Theory for ML)

概率论(Probability Theory)是机器学习的核(kernel /ˈkɜːrnl/)心语言。几乎所有 ML 算法——从线性回归(regression /rɪˈɡreʃən/)的损失函数到贝叶斯推断,从随机(stochastic /stəˈkæstɪk/)梯度(gradient /ˈɡreɪdiənt/)下降到生成模型——都建立在概率论的基础之上。本章从概率分布出发,逐步展开贝叶斯定理、最大似然估计(MLE)、最大后验估计(MAP)以及期望与方差等核心概念,为后续理解各类 ML 模型打下坚实的数学基础。


1. 概率分布(Probability Distributions)

1.1 随机变量(Random Variable)

随机变量(Random Variable) 是将随机试验的结果映射为数值的函数,分为两类:

类型取值示例
离散型(Discrete)可数有限个或可数无限个硬币正面次数、骰子点数
连续型(Continuous)某个区间内的任意实数身高、温度、房价

1.2 概率质量函数(PMF)与概率密度函数(PDF)

  • PMF(Probability Mass Function):描述离散随机变量取某个特定值的概率,满足 p(x)0xp(x)=1
  • PDF(Probability Density Function):描述连续随机变量在某个点处的"密度",满足 f(x)0f(x)dx=1。某区间内的概率为 PDF 在该区间上的积分:P(aXb)=abf(x)dx

1.3 伯努利分布(Bernoulli Distribution)

伯努利分布(Bernoulli Distribution) 建模单次二值试验的结果,如抛一次硬币是否正面朝上。

参数(parameter /pəˈræmɪtər/)p[0,1] —— 正面(x=1)的概率。

PMF

p(xp)=px(1p)1x,x{0,1}
  • x=1 时,p(1)=p
  • x=0 时,p(0)=1p

期望与方差E[X]=p, Var[X]=p(1p)

1.4 二项分布(Binomial Distribution)

二项分布(Binomial Distribution) 建模 n 次独立同分布的伯努利试验中成功次数的分布。

参数nN+(试验次数), p[0,1](单次成功概率)。

PMF

p(kn,p)=(nk)pk(1p)nk,k=0,1,,n

其中 (nk)=n!k!(nk)! 是组合数(二项式系数)。

期望与方差E[X]=np, Var[X]=np(1p)

直觉:二项分布是伯努利分布的"重复版本"。当 n=1 时,二项分布退化为伯努利分布。

1.5 正态分布 / 高斯分布(Normal / Gaussian Distribution)

正态分布(Normal Distribution),也称高斯分布(Gaussian Distribution),是概率论中最核心的连续分布。中心极限定理(Central Limit Theorem)保证了大量独立随机变量之和趋近于正态分布,因此它在自然界和 ML 中无处不在。

参数μR(均值,Mean), σ2>0(方差,Variance),常记作 N(μ,σ2)

PDF

f(xμ,σ2)=12πσ2exp((xμ)22σ2)

性质

  • PDF 关于 x=μ 对称
  • μ 控制分布的中心位置,σ 控制分布的宽度(标准差,Standard Deviation)
  • 68-95-99.7 法则:约 68% 的数据落在 μ±σ 内,95% 在 μ±2σ 内,99.7% 在 μ±3σ

联系与区别:伯努利和二项分布是离散分布,用于分类(classification /ˌklæsɪfɪˈkeɪʃən/)问题中的标签建模;正态分布是连续分布,广泛用于回归任务中的误差建模和参数初始化。

1.6 类别分布 / 多项分布(Categorical / Multinomial Distribution)

类别分布(Categorical Distribution) 是伯努利分布从 2 类到 K 类的推广,建模单次 K 值试验的结果(如掷 K 面骰子)。多项分布(Multinomial Distribution) 则是 n 次独立类别试验的联合分布。

类别分布参数π=(π1,,πK),满足 πk0k=1Kπk=1

类别分布 PMF

p(xπ)=k=1KπkI[x=k]

其中 I[] 是指示函数(Indicator Function)。

多项分布 PMFn 次试验,第 k 类出现 nk 次):

p(n1,,nKn,π)=n!n1!nK!k=1Kπknk

多项分布在 ML 中用于建模文本的词袋表示(Bag-of-Words)和分类问题的标签分布。


2. 条件概率与贝叶斯定理(Bayes' Theorem)

2.1 条件概率(Conditional Probability)

条件概率 P(AB) 表示在事件 B 已发生的条件下事件 A 发生的概率:

P(AB)=P(AB)P(B),P(B)>0

乘法定理(Multiplication Rule)由上式直接可得:

P(AB)=P(AB)P(B)=P(BA)P(A)

2.2 全概率公式(Law of Total Probability)

若事件 B1,B2,,BK 构成样本空间的一个划分(即互不相交且并集为全集),则对任意事件 A

P(A)=k=1KP(ABk)P(Bk)

2.3 贝叶斯定理(Bayes' Theorem)

贝叶斯定理将先验知识观测数据结合,得到后验概率

P(BiA)=P(ABi)P(Bi)P(A)=P(ABi)P(Bi)j=1KP(ABj)P(Bj)

在 ML 中,我们通常写成以下形式:

P(θD)=P(Dθ)P(θ)P(D)

其中:

符号名称含义
P(θ)先验(Prior)观测数据之前,我们对参数 θ 的信念
P(Dθ)似然(Likelihood)在参数 θ 下,数据 D 出现的概率
P(D)证据(Evidence)数据出现的总概率(归一化(normalization /ˌnɔːrmələˈzeɪʃən/)常数)
P(θD)后验(Posterior)观测数据之后,我们对 θ 更新的信念

推导:由乘法定理,P(θD)=P(Dθ)P(θ)=P(θD)P(D),两边除以 P(D) 即得上式。

2.4 经典案例:医学检测(Medical Test)

设某种疾病的患病率 P()=0.01(先验)。检测方法的灵敏度(Sensitivity) P(+)=0.99特异度(Specificity) P(-无病)=0.95

若一个人检测结果为阳性(+),其真正患病的概率是多少?

P(+)=P(+)P()P(+)P()+P(+无病)P(无病)=0.99×0.010.99×0.01+0.05×0.990.167

直觉:即使检测灵敏度很高,由于患病率很低(1%),阳性结果的实际患病概率只有约 16.7%。这就是为什么大规模筛查中假阳性率不可忽视。


3. 最大似然估计 MLE(Maximum Likelihood Estimation)

3.1 核心思想

最大似然估计(MLE, Maximum Likelihood Estimation) 的核心问题是:给定观测数据 D={x1,,xn}哪个参数 θ 最有可能生成这些数据?

MLE 选择使似然函数(Likelihood Function) P(Dθ) 最大的 θ

θ^MLE=argmaxθP(Dθ)

3.2 似然函数 vs 概率密度函数

两者在数学形式上相同,但视角不同:

  • PDF/PMF:给定 θ,描述数据 x 的分布 —— 是 x 的函数
  • 似然:给定观测数据 D,描述参数 θ 的"解释能力" —— 是 θ 的函数
L(θD)=P(Dθ)

3.3 MLE 实例:估计高斯分布的均值与方差

假设数据 {x1,,xn} 独立同分布(i.i.d.)于 N(μ,σ2)

Step 1:写出似然函数

P(Dμ,σ2)=i=1n12πσ2exp((xiμ)22σ2)

Step 2:取对数(Log-Likelihood) —— 将乘积变为求和,便于求导

(μ,σ2)=logP(Dμ,σ2)=n2log(2π)n2log(σ2)12σ2i=1n(xiμ)2

Step 3:对 μ 求偏导并令其为零

μ=1σ2i=1n(xiμ)=0i=1nxinμ=0μ^MLE=1ni=1nxi

MLE 对均值的估计就是样本均值(Sample Mean)

Step 4:对 σ2 求偏导并令其为零

σ2=n21σ2+12(σ2)2i=1n(xiμ)2=0σ^MLE2=1ni=1n(xiμ^MLE)2

注意σ^MLE2有偏估计(Biased Estimator),分母为 n 而非 n1。样本方差(Sample Variance)常用无偏估计 S2=1n1(xix¯)2,分母 n1 来自自由度修正。

3.4 MLE 的一般步骤

  1. 假设数据服从某个参数化分布 P(xθ)
  2. 写出似然函数 L(θD)=i=1nP(xiθ)
  3. 取对数得到 Log-Likelihood (θ)
  4. 对参数 θ 求偏导,令导数为零
  5. 解出 θ^MLE(可能需要数值优化)

4. 最大后验估计 MAP(Maximum A Posteriori Estimation)

4.1 从 MLE 到 MAP

MLE 只关注数据拟合,但当数据量少时,MLE 容易过拟合(overfitting /ˈoʊvərˈfɪtɪŋ/)(Overfitting)。MAP 引入先验(Prior) P(θ),结合数据的似然,最大化后验概率

θ^MAP=argmaxθP(θD)=argmaxθP(Dθ)P(θ)P(D)

由于 P(D)θ 无关,等价于:

θ^MAP=argmaxθP(Dθ)P(θ)

取对数形式:

θ^MAP=argmaxθ[logP(Dθ)Log-Likelihood+logP(θ)Log-Prior]

4.2 MAP vs MLE

方面MLEMAP
优化目标maxlogP(Dθ)max[logP(Dθ)+logP(θ)]
先验信息不使用使用
数据量少时容易过拟合更稳健(Regularized)
当先验为均匀分布MAP = MLE
计算复杂度较低略高(需要额外乘先验)

4.3 MAP 与正则化(Regularization)的联系

取高斯先验 θN(0,λ1),其对数形式为 logP(θ)=λ2θ2+const

MAP 的优化目标变为:

θ^MAP=argmaxθ[logP(Dθ)λ2θ2]

等价于最小化带 L2 正则化(regularization /ˌreɡjələraɪˈzeɪʃən/)(L2 Regularization) 的负对数似然(Negative Log-Likelihood):

θ^MAP=argminθ[logP(Dθ)+λ2θ2]

这正是岭回归(Ridge Regression) 的损失函数!类似地,拉普拉斯先验(Laplace Prior)对应 L1 正则化(Lasso)

核心 insight:从贝叶斯角度看,正则化不是人为的技巧,而是对参数施加先验分布的自然结果。


5. 期望、方差与协方差(Expectation, Variance, Covariance)

5.1 期望(Expectation / Expected Value)

期望是随机变量在概率意义上的"加权平均"。

类型定义公式
离散型E[X]=xxp(x)每个可能值乘以其概率后求和
连续型E[X]=xf(x)dx对 PDF 进行加权积分

期望的线性性质(Linearity of Expectation) —— 非常强大且常用:

E[aX+bY]=aE[X]+bE[Y]

无论 XY 是否独立,这一性质都成立。

对函数的期望(Law of the Unconscious Statistician, LOTUS):

E[g(X)]={xg(x)p(x),离散g(x)f(x)dx,连续

5.2 方差(Variance)

方差衡量随机变量围绕其均值的离散程度

Var[X]=E[(XE[X])2]=E[X2](E[X])2

标准差(Standard Deviation)σX=Var[X],与 X 量纲相同。

性质

  • Var[aX+b]=a2Var[X](常数平移不影响方差)
  • Var[X+Y]=Var[X]+Var[Y]+2Cov[X,Y]

5.3 协方差与相关系数(Covariance & Correlation)

协方差(Covariance) 衡量两个随机变量共同变化的程度:

Cov[X,Y]=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]

性质

  • Cov[X,X]=Var[X]
  • XY 独立,则 Cov[X,Y]=0(但反之不成立)
  • Cov[aX+b,cY+d]=acCov[X,Y]

相关系数(Correlation Coefficient) 将协方差归一化到 [1,1] 区间:

ρX,Y=Cov[X,Y]σXσY
  • ρ=1:完全正相关;ρ=1:完全负相关;ρ=0:不相关

5.4 协方差矩阵(Covariance Matrix)

对于 D 维随机向量 X=(X1,,XD),协方差矩阵 Σ 是一个 D×D 的对称半正定矩阵:

Σij=Cov[Xi,Xj]Σ=E[(XE[X])(XE[X])]

协方差矩阵在 ML 中无处不在:

  • 多元高斯分布(Multivariate Gaussian) 的 PDF 直接使用 Σ
  • PCA 对协方差矩阵做特征值分解
  • 线性判别分析(LDA) 使用类内协方差矩阵

5.5 全期望公式(Law of Total Expectation)

全期望公式(Law of Total Expectation / Law of Iterated Expectations) 是一个经常用到但容易被忽视的有用公式:

E[X]=E[E[XY]]

含义:整体期望 = 条件期望的期望。即先对每个 Y 取值求条件期望,再对 Y 的分布求加权平均。

推导(离散情况):

E[E[XY]]=yE[XY=y]P(Y=y)=yxxP(X=xY=y)P(Y=y)=xxyP(X=x,Y=y)=xxP(X=x)=E[X]

6. 本章小结

概念要点ML 中的典型用途
伯努利分布单次二值试验,参数 p二分类标签建模
二项分布n 次独立伯努利试验的成功次数评估指标(Accuracy 的分布)
正态分布N(μ,σ2),中心极限定理误差项、参数初始化、特征归一化
贝叶斯定理P(θD)P(Dθ)P(θ)贝叶斯推断、朴素贝叶斯分类器
MLEmaxlogP(Dθ)线性回归、逻辑回归的参数估计
MAPmax[logLikelihood+logPrior]带正则化的模型训练
期望概率加权平均 E[X]损失函数(风险)的定义
方差/协方差离散度 / 共变程度PCA、特征选择、正态分布参数

7. 进一步阅读


下一章:03 — 信息论基础(Information Theory for ML)

配套代码:probability_demo.py — 分布可视化、贝叶斯计算、MLE 数值验证