第2章反向传播 — 神经网络的学习算法

Chapter 2: Backpropagation — The Learning Algorithm of Neural Networks

反向传播（backpropagation /ˌbækprəpəˈɡeɪʃən/） (Backpropagation) 是深度学习最核（kernel /ˈkɜːrnl/）心的训练算法。 它将微积分中的链式法则应用于多层神经网络，优雅地解决了"如何计算每个参数（parameter /pəˈræmɪtər/）对最终误差的贡献"这一根本问题。本章从一个简单的计算图出发，逐步推导出 2 层神经网络的反向传播公式，并通过 NumPy 实现和数值梯度（gradient /ˈɡreɪdiənt/）验证来确保推导的正确性。
时间线:
1986: Rumelhart, Hinton & Williams 在 Nature 发表反向传播算法
Backpropagation is the core training algorithm of deep learning. It applies the chain rule from calculus to multi-layer neural networks, elegantly solving the fundamental problem of "how to compute each parameter's contribution to the final error." This chapter starts from a simple computation graph, derives backpropagation for a 2-layer network step by step, and verifies correctness through NumPy implementation and numerical gradient checking.

前置知识 (Prerequisites): 微积分（链式法则），线性代数（矩阵乘法），第 1 章（感知机与 MLP）

依赖库 (Dependencies): numpy, matplotlib

Code companion: code/backpropagation.py

目录 (Table of Contents)

计算图 (Computation Graph) 📐
- 1.1 前向传播的图形化表示
- 1.2 计算图上的梯度传播
链式法则递归应用 📐
- 2.1 输出层 (Layer 2)
- 2.2 隐藏层 (Layer 1)
- 2.3 梯度汇总
数值梯度验证 (Gradient Check)
2 层网络的完整实现
- 4.1 前向与反向传播
- 4.2 梯度检查结果
- 4.3 训练与决策边界
关键总结 (Key Summary)

1. 计算图 (Computation Graph)

1.1 前向传播的图形化表示 (Forward Pass Visualization)

计算图是理解反向传播最直观的工具。考虑一个最简单的网络：一个神经元 + 一个 Sigmoid（/ˈsɪɡmɔɪd/） + 平方误差。

对于单个样本 $(x, y)$ ，前向计算为：

z = w \cdot x + b, a = σ (z), L = \frac{1}{2} (a - y)^{2}

这个前向过程可以用计算图直观表示：

    x ──┐
        ├──→ (+) ── z ──→ [σ] ── a ──→ [½(·-y)²] ── L
    w ──┤         ↑
    b ──┘      偏置

从左到右： 输入 $x$ 和权重 $w$ 做线性组合，加上偏置 $b$ 得 $z$ ，Sigmoid 激活得 $a$ ，最后与目标 $y$ 比较得损失 $L$ 。

关键洞察： 要更新 $w$ ，我们需要 $\partial L / \partial w$ 。计算图告诉我们：从 $L$ 到 $w$ 的路径是 $L \to a \to z \to w$ ，所以根据链式法则：

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}

这正是反向传播的本质——从输出端往输入端逐层传递梯度。

1.2 计算图上的梯度传播 (Gradient Flow on Computation Graph)

让我们实际计算每个局部梯度：

节点	局部梯度	表达式
$L \to a$	$\partial L / \partial a$	$a - y$
$a \to z$	$\partial a / \partial z$	$σ (z) (1 - σ (z))$
$z \to w$	$\partial z / \partial w$	$x$

因此：

\frac{\partial L}{\partial w} = (a - y) \cdot σ (z) (1 - σ (z)) \cdot x

这虽然只是一个神经元的梯度，但它揭示了反向传播的核心模式：

梯度 = 上游梯度 × 局部梯度 (Gradient = upstream gradient × local gradient)

当我们堆叠多层时，这个模式会递归应用，形成误差反向传播（errors backpropagating from output to input）。

🔍 完整演算：单神经元梯度计算 — w=2,x=3,y=0

📐 公式

对于单个神经元，前向计算：

z = w \cdot x + b, a = σ (z), L = \frac{1}{2} (a - y)^{2}

反向传播的链式法则：

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}

其中 $σ (z) = \frac{1}{1 + e^{- z}}$ 为 Sigmoid 函数。

📖 参数含义

符号	名称	含义
$w$	权重	神经元的连接权重，控制输入信号的缩放
$b$	偏置	神经元的偏置项，控制激活阈值
$x$	输入	单个样本的特征值
$y$	目标值	样本的真实标签
$z$	线性输出	$z = w x + b$ ，激活前的线性组合
$a$	激活输出	$a = σ (z)$ ，神经元经过 Sigmoid 后的输出
$L$	损失	均方误差 $L = \frac{1}{2} (a - y)^{2}$
$δ$	误差信号	$δ = \partial L / \partial z$ ，上游传来的梯度
$\partial L / \partial w$	权重梯度	损失对权重的导数，用于梯度下降更新

📝 公式来源

链式法则的逐层拆解：

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}

各局部梯度：

\frac{\partial L}{\partial a} = a - y, \frac{\partial a}{\partial z} = σ (z) (1 - σ (z)), \frac{\partial z}{\partial w} = x

合并得到完整梯度公式：

\frac{\partial L}{\partial w} = (a - y) \cdot σ (z) (1 - σ (z)) \cdot x

✏️ 手算演示

给定参数： $w = 2, b = 1, x = 3, y = 0$

Step 1: 前向传播

z = w \cdot x + b = 2 \cdot 3 + 1 = 7

a = σ (z) = \frac{1}{1 + e^{- 7}} \approx 0.999

L = \frac{1}{2} (a - y)^{2} = \frac{1}{2} (0.999 - 0)^{2} \approx 0.499

Step 2: 反向传播 — 逐层求导

\frac{\partial L}{\partial a} = a - y = 0.999 - 0 \approx 0.999

\frac{\partial a}{\partial z} = σ (z) (1 - σ (z)) = a (1 - a) \approx 0.999 \times 0.001 \approx 0.0009

\frac{\partial z}{\partial w} = x = 3

Step 3: 链式法则合成

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} \approx 0.999 \times 0.0009 \times 3 \approx 0.0027

验证：上游梯度 × 局部梯度

梯度流动路径： $L \overset{0.999}{\to} a \overset{0.0009}{\to} z \overset{3}{\to} w$

最终梯度 $\partial L / \partial w \approx 0.0027$ ，表示权重 $w$ 每增加 1，损失 $L$ 约增加 0.0027。

🌍 实际意义

上游梯度 × 局部梯度 = 反向传播的核心模式：这个简单例子揭示了整个深度学习的梯度计算本质。每一层只负责计算自己的局部梯度，上游传来的梯度与局部梯度相乘后继续向前传播。
Sigmoid 的梯度消失现象：当 $z$ 很大（ $7$ ）时， $σ^{'} (z) \approx 0.0009$ 非常小。深层网络中多个小梯度连乘会导致梯度消失（Vanishing Gradient）——这就是为什么现代网络更倾向使用 ReLU 的原因。
$δ$ （误差信号）的概念： $δ = \partial L / \partial z$ 衡量了该神经元对最终误差的"责任"，是反向传播中最核心的中间量。

2. 链式法则递归应用 (Recursive Chain Rule)

现在考虑一个 2 层神经网络（1 个隐藏层 + 1 个输出层），使用 Tanh 隐藏激活和 Sigmoid 输出激活。

符号定义 (Notation)

符号	含义	维度
$X$	输入矩阵	$(N, d_{in})$
$W_{1}, b_{1}$	第一层权重、偏置	$(d_{in}, d_{h})$ , $(1, d_{h})$
$z_{1}, h_{1}$	第一层线性输出、隐藏激活	$(N, d_{h})$
$W_{2}, b_{2}$	第二层权重、偏置	$(d_{h}, 1)$ , $(1, 1)$
$z_{2}, \hat{y}$	第二层线性输出、预测	$(N, 1)$ , $(N, 1)$
$y$	真实标签	$(N, 1)$
$L$	二元交叉熵（entropy /ˈentrəpi/）损失	标量（scalar /ˈskeɪlər/）

前向传播 (Forward Pass)

\begin{aligned} z_{1} & = X W_{1} + b_{1}, & h_{1} & = \tanh (z_{1}) \\ z_{2} & = h_{1} W_{2} + b_{2}, & \hat{y} & = σ (z_{2}) \\ L & = - \frac{1}{N} \sum_{i = 1}^{N} [y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})] \end{aligned}

2.1 输出层 (Layer 2 — Output Layer)

梯度 1: $\partial L / \partial z_{2}$

对于二元交叉熵 + Sigmoid，有一个非常简洁的合并梯度形式：

\frac{\partial L}{\partial z_{2}} = \hat{y} - y \in R^{N \times 1}

设 $δ_{2} = \partial L / \partial z_{2} = \hat{y} - y$ ，我们称 $δ_{2}$ 为输出层的误差信号 (error signal)。

梯度 2: $\partial L / \partial W_{2}$ 和 $\partial L / \partial b_{2}$

应用链式法则：

\frac{\partial L}{\partial W_{2}} = \frac{\partial L}{\partial z_{2}} \cdot \frac{\partial z_{2}}{\partial W_{2}} = h_{1}^{⊤} δ_{2} \in R^{d_{h} \times 1}

注意 $\partial z_{2} / \partial W_{2} = h_{1}$ ，这是因为 $z_{2} = h_{1} W_{2} + b_{2}$ ，维度为 $(N, 1) = (N, d_{h}) \times (d_{h}, 1)$ 。

\frac{\partial L}{\partial b_{2}} = \frac{1}{N} \sum_{i = 1}^{N} δ_{2}^{(i)} \in R^{1 \times 1}

矩阵形式的最终公式：

δ_{2} = \hat{y} - y, \frac{\partial L}{\partial W_{2}} = \frac{1}{N} h_{1}^{⊤} δ_{2}, \frac{\partial L}{\partial b_{2}} = \frac{1}{N} \sum δ_{2}

2.2 隐藏层 (Layer 1 — Hidden Layer)

误差传播到第一层

现在我们要把 $δ_{2}$ "传播" 回第一层。关键问题是： $\partial L / \partial h_{1}$ 是多少？

\frac{\partial L}{\partial h_{1}} = \frac{\partial L}{\partial z_{2}} \cdot \frac{\partial z_{2}}{\partial h_{1}} = δ_{2} \cdot W_{2}^{⊤} \in R^{N \times d_{h}}

通过激活函数传播

接着通过 Tanh 激活函数：

\frac{\partial L}{\partial z_{1}} = \frac{\partial L}{\partial h_{1}} ⊙ \tanh^{'} (z_{1}) = (δ_{2} W_{2}^{⊤}) ⊙ (1 - h_{1}^{2})

其中 $⊙$ 表示逐元素乘法 (Hadamard product)。

对 $W_{1}, b_{1}$ 的梯度

\frac{\partial L}{\partial W_{1}} = X^{⊤} δ_{1}, \frac{\partial L}{\partial b_{1}} = \frac{1}{N} \sum δ_{1}

矩阵形式的最终公式：

δ_{1} = (δ_{2} W_{2}^{⊤}) ⊙ (1 - h_{1}^{2}), \frac{\partial L}{\partial W_{1}} = \frac{1}{N} X^{⊤} δ_{1}, \frac{\partial L}{\partial b_{1}} = \frac{1}{N} \sum δ_{1}

2.3 梯度汇总 (Gradient Summary)

      Layer 2 (Output)                   Layer 1 (Hidden)
  ┌──────────────────────┐         ┌──────────────────────┐
  │ δ₂ = ŷ - y           │         │ δ₁ = (δ₂W₂ᵀ) ⊙ t'(z₁)│
  │ dW₂ = (h₁ᵀ δ₂) / N   │    ←───│ dW₁ = (Xᵀ δ₁) / N    │
  │ db₂ = mean(δ₂)       │         │ db₁ = mean(δ₁)       │
  └──────────────────────┘         └──────────────────────┘
           │                                │
           │         δ₂ "flows back"        │
           └────────────────────────────────┘

核心模式 (The Core Pattern):

每一层的反向传播遵循统一的 三部曲：

δ^{(ℓ)} = (W^{(ℓ + 1)})^{⊤} δ^{(ℓ + 1)} ⊙ σ^{'} (z^{(ℓ)})

\frac{\partial L}{\partial W^{(ℓ)}} = \frac{1}{N} (a^{(ℓ - 1)})^{⊤} δ^{(ℓ)}

\frac{\partial L}{\partial b^{(ℓ)}} = \frac{1}{N} \sum_{i = 1}^{N} δ^{(ℓ)}

其中 $σ^{'}$ 是当前层激活函数的导数。

🔍 完整演算：2 层网络反向传播手算 — 2→2→1

📐 公式

2 层神经网络（Tanh 隐藏层 + Sigmoid 输出层 + 二元交叉熵损失）：

\begin{aligned} z_{1} & = X W_{1} + b_{1}, & h_{1} & = \tanh (z_{1}) \\ z_{2} & = h_{1} W_{2} + b_{2}, & \hat{y} & = σ (z_{2}) \\ L & = - [y \log \hat{y} + (1 - y) \log (1 - \hat{y})] \end{aligned}

输出层梯度：

δ_{2} = \hat{y} - y, \frac{\partial L}{\partial W_{2}} = h_{1}^{⊤} δ_{2}, \frac{\partial L}{\partial b_{2}} = δ_{2}

隐藏层梯度：

δ_{1} = (δ_{2} W_{2}^{⊤}) ⊙ \tanh^{'} (z_{1}), \frac{\partial L}{\partial W_{1}} = X^{⊤} δ_{1}, \frac{\partial L}{\partial b_{1}} = δ_{1}

📖 参数含义

符号	名称	含义
$X, y$	输入、真实标签	单个样本： $X = [0.5, - 0.3], y = 1$
$W_{1}, b_{1}$	隐藏层权重、偏置	$2 \times 2$ 矩阵和 $2$ 维偏置
$W_{2}, b_{2}$	输出层权重、偏置	$2 \times 1$ 向量和标量偏置
$δ_{2}$	输出层误差信号	$\partial L / \partial z_{2}$ ，衡量预测偏差
$δ_{1}$	隐藏层误差信号	$\partial L / \partial z_{1}$ ，经权重回传的误差
$⊙$	Hadamard 积	逐元素乘法

📝 公式来源

反向传播 = 递归链式法则：

输出层： $L \to \hat{y} \to z_{2} \to {\begin{cases} W_{2}, b_{2} \\ h_{1} \to z_{1} \to {\begin{cases} W_{1}, b_{1} \end{cases} \end{cases}$

$δ_{2}$ 的推导利用了 Sigmoid + 交叉熵的"巧合"——两者求导后抵消 $σ (z)$ 的非线性，得到简洁形式 $\hat{y} - y$ 。

$δ_{1}$ 的推导： $\partial L / \partial h_{1} = δ_{2} W_{2}^{⊤}$ （误差回传），再经 Tanh 导数 $\tanh^{'} (z_{1}) = 1 - \tanh (z_{1})^{2}$ 门控。

✏️ 手算演示

网络结构与参数：

2 输入 \overset{W_{1}, b_{1}}{\to} 2 神经元隐藏层 (Tanh) \overset{W_{2}, b_{2}}{\to} 1 神经元输出层 (Sigmoid)

W_{1} = [\begin{matrix} 0.5 & - 0.3 \\ 0.2 & 0.4 \end{matrix}], b_{1} = [\begin{matrix} 0.1 & - 0.2 \end{matrix}], W_{2} = [\begin{matrix} 0.6 \\ - 0.5 \end{matrix}], b_{2} = 0.3

单个样本： $X = [\begin{matrix} 0.5 & - 0.3 \end{matrix}], y = 1$

Step 1: 前向传播

z_{1} = X W_{1} + b_{1} = [\begin{matrix} 0.5 & - 0.3 \end{matrix}] [\begin{matrix} 0.5 & - 0.3 \\ 0.2 & 0.4 \end{matrix}] + [\begin{matrix} 0.1 & - 0.2 \end{matrix}]

z_{1, 1} = 0.5 \times 0.5 + (- 0.3) \times 0.2 + 0.1 = 0.29

z_{1, 2} = 0.5 \times (- 0.3) + (- 0.3) \times 0.4 + (- 0.2) = - 0.47

z_{1} = [\begin{matrix} 0.29 & - 0.47 \end{matrix}]

h_{1} = \tanh (z_{1}) = [\begin{matrix} \tanh (0.29) & \tanh (- 0.47) \end{matrix}] \approx [\begin{matrix} 0.282 & - 0.438 \end{matrix}]

z_{2} = h_{1} W_{2} + b_{2} = [\begin{matrix} 0.282 & - 0.438 \end{matrix}] [\begin{matrix} 0.6 \\ - 0.5 \end{matrix}] + 0.3 = 0.282 \times 0.6 + (- 0.438) \times (- 0.5) + 0.3 = 0.688

\hat{y} = σ (z_{2}) = \frac{1}{1 + e^{- 0.688}} \approx 0.666

L = - [y \log \hat{y} + (1 - y) \log (1 - \hat{y})] = - \log (0.666) \approx 0.407

Step 2: 输出层反向传播

δ_{2} = \hat{y} - y = 0.666 - 1 = - 0.334

\frac{\partial L}{\partial W_{2}} = h_{1}^{⊤} δ_{2} = [\begin{matrix} 0.282 \\ - 0.438 \end{matrix}] \times (- 0.334) = [\begin{matrix} - 0.094 \\ 0.146 \end{matrix}]

\frac{\partial L}{\partial b_{2}} = δ_{2} = - 0.334

Step 3: 误差传播到隐藏层

\frac{\partial L}{\partial h_{1}} = δ_{2} W_{2}^{⊤} = - 0.334 \times [\begin{matrix} 0.6 & - 0.5 \end{matrix}] = [\begin{matrix} - 0.200 & 0.167 \end{matrix}]

\tanh^{'} (z_{1}) = 1 - h_{1}^{2} = [\begin{matrix} 1 - {0.282}^{2} & 1 - (- 0.438)^{2} \end{matrix}] = [\begin{matrix} 0.920 & 0.808 \end{matrix}]

δ_{1} = \frac{\partial L}{\partial h_{1}} ⊙ \tanh^{'} (z_{1}) = [\begin{matrix} - 0.200 \times 0.920 & 0.167 \times 0.808 \end{matrix}] = [\begin{matrix} - 0.184 & 0.135 \end{matrix}]

Step 4: 隐藏层梯度

\frac{\partial L}{\partial W_{1}} = X^{⊤} δ_{1} = [\begin{matrix} 0.5 \\ - 0.3 \end{matrix}] [\begin{matrix} - 0.184 & 0.135 \end{matrix}] = [\begin{matrix} - 0.092 & 0.068 \\ 0.055 & - 0.041 \end{matrix}]

\frac{\partial L}{\partial b_{1}} = δ_{1} = [\begin{matrix} - 0.184 & 0.135 \end{matrix}]

Step 5: 梯度流动表

传播方向	变量	数值/表达式	维度	含义
前向	$z_{1}$	$[0.29, - 0.47]$	$1 \times 2$	隐藏层线性输出
↓	$h_{1}$	$[0.282, - 0.438]$	$1 \times 2$	Tanh 激活
↓	$z_{2}$	$0.688$	$1 \times 1$	输出层线性输出
↓	$\hat{y}$	$0.666$	$1 \times 1$	Sigmoid 预测
反向 ↑	$δ_{2}$	$- 0.334$	$1 \times 1$	输出误差信号
↑	$\partial L / \partial W_{2}$	$[- 0.094, 0.146]^{⊤}$	$2 \times 1$	输出层权重梯度
↑	$\partial L / \partial h_{1}$	$[- 0.200, 0.167]$	$1 \times 2$	对隐藏层的梯度
↑	$δ_{1}$	$[- 0.184, 0.135]$	$1 \times 2$	隐藏层误差信号
↑	$\partial L / \partial W_{1}$	$[\begin{matrix} - 0.092 & 0.068 \\ 0.055 & - 0.041 \end{matrix}]$	$2 \times 2$	隐藏层权重梯度

🌍 实际意义

误差信号 $δ$ 的物理含义： $δ_{2} = - 0.334$ 表示预测 $0.666$ 低于真实值 $1$ ，因此梯度会推动权重增加预测值。 $δ_{1}$ 中第一个神经元为负（ $- 0.184$ ）、第二个为正（ $0.135$ ），反映了它们对输出误差的不同"责任"。
梯度流动的可视化：从 $\hat{y}$ 往 $W_{1}$ 方向，误差信号 $δ$ 经历"输出层 → 权重回传 → 激活函数门控"的标准三步曲，每一步都乘以一个局部梯度。
现实训练中的应用：实际训练时（如第 4 节的代码实现），上述手算过程以矩阵形式对批量数据一次性完成。梯度检查（第 3 节）本质上就是用数值近似验证上述每一组梯度的正确性。

3. 数值梯度验证 (Gradient Check)

反向传播的推导容易出错。数值梯度验证 (Gradient Check) 是确保推导正确的黄金标准。

有限差分法 (Finite Differences)

使用中心差分 (central difference) 近似导数：

\frac{\partial f (θ)}{\partial θ} \approx \frac{f (θ + ε) - f (θ - ε)}{2 ε}, ε = 10^{- 5}

为什么不用前向差分 $[f (θ + ε) - f (θ)] / ε$ ？ 中心差分的误差为 $O (ε^{2})$ ，而前向差分的误差为 $O (ε)$ 。在 $ε = 10^{- 5}$ 下，中心差分的精度远高于前向差分。

验证标准 (Verification Criteria)

如果反向传播实现正确，对于每个参数 $θ$ ：

| analytical_grad - numerical_grad | < 10^{- 6}

代码实现 (Code Implementation)

python

def gradient_check(model, X, y, param_name="W2", num_tests=5):
    """
    数值梯度验证: |analytical - numerical| < 1e-6
    使用中心差分: ∂f/∂θ ≈ (f(θ+ε) - f(θ-ε)) / (2ε)
    """
    param = model.params[param_name]
    analytical_grad = model.grads[param_name].copy()
    flat_analytical = analytical_grad.ravel()
    total_dims = flat_analytical.size

    # 如果参数小, 测试所有维度; 否则随机采样
    if total_dims <= 20:
        test_indices = list(range(total_dims))
    else:
        test_indices = RNG.choice(
            total_dims, min(num_tests, total_dims), replace=False
        ).tolist()

    max_diff = 0.0
    for idx in test_indices:
        orig_val = param.ravel()[idx]

        # f(θ + ε)
        param_plus = param.copy()
        param_plus.ravel()[idx] += EPS
        loss_plus = model.compute_loss_with_params(
            {param_name: param_plus}, X, y
        )

        # f(θ - ε)
        param_minus = param.copy()
        param_minus.ravel()[idx] -= EPS
        loss_minus = model.compute_loss_with_params(
            {param_name: param_minus}, X, y
        )

        num_grad = (loss_plus - loss_minus) / (2 * EPS)
        ana_grad = flat_analytical[idx]
        diff = abs(ana_grad - num_grad)
        max_diff = max(max_diff, diff)

    return max_diff

运行输出 (Actual Output)

========================================================================
【数值梯度验证 / Numerical Gradient Check】
  有限差分步长 (Finite diff step): ε = 1e-05
  每个参数测试 (Tests per param): 5 个随机位置
========================================================================

  参数   W1  ✓ PASS  |  shape=(2, 10)  |  max|diff|=1.30e-11  |  rel_err=1.24e-10
    [0,0]  analytical=-1.04903863e-01  numerical=-1.04903863e-01  |diff|=3.55e-12
    [0,1]  analytical=+2.28319969e-02  numerical=+2.28319969e-02  |diff|=8.81e-12
    ...
    [1,9]  analytical=-1.18234050e-02  numerical=-1.18234050e-02  |diff|=2.18e-12

  参数   b1  ✓ PASS  |  shape=(1, 10)  |  max|diff|=7.66e-12  |  rel_err=3.41e-10

  参数   W2  ✓ PASS  |  shape=(10, 1)  |  max|diff|=1.43e-11  |  rel_err=3.69e-11

  参数   b2  ✓ PASS  |  shape=(1, 1)   |  max|diff|=1.62e-12  |  rel_err=7.74e-11

  ✓ 所有梯度检查通过! |analytical - numerical| < 1e-6

所有 4 组参数的梯度检查全部通过，最大绝对差值 $1.43 \times 10^{- 11}$ ，远小于 $10^{- 6}$ 的阈值。这以数值方式证明了我们推导的反向传播公式是正确的。

4. 2 层网络的完整实现 (Complete 2-Layer Implementation)

4.1 前向与反向传播 (Forward & Backward)

python

class TwoLayerNet:
    """2 层神经网络: 输入 → 隐藏层(tanh) → 输出层(sigmoid)"""

    def __init__(self, input_dim=2, hidden_dim=10):
        scale1 = np.sqrt(1.0 / input_dim)
        scale2 = np.sqrt(1.0 / hidden_dim)
        self.params = {
            "W1": np.random.randn(input_dim, hidden_dim) * scale1,
            "b1": np.zeros((1, hidden_dim)),
            "W2": np.random.randn(hidden_dim, 1) * scale2,
            "b2": np.zeros((1, 1)),
        }
        self.cache = {}

    def forward(self, X):
        """前向传播: X → z1 → h1 → z2 → y_hat"""
        z1 = X @ self.params["W1"] + self.params["b1"]
        h1 = np.tanh(z1)
        z2 = h1 @ self.params["W2"] + self.params["b2"]
        y_hat = 1.0 / (1.0 + np.exp(-np.clip(z2, -500, 500)))

        self.cache = {"X": X, "z1": z1, "h1": h1, "z2": z2, "y_hat": y_hat}
        return y_hat

    def backward(self, y):
        """反向传播 — 计算所有参数的梯度"""
        X = self.cache["X"]
        h1 = self.cache["h1"]
        y_hat = self.cache["y_hat"]
        N = X.shape[0]

        # 输出层: δ₂ = ŷ - y
        delta2 = y_hat - y
        dW2 = (h1.T @ delta2) / N
        db2 = np.mean(delta2, axis=0, keepdims=True)

        # 隐藏层: δ₁ = (δ₂W₂ᵀ) ⊙ (1 - h₁²)
        delta1 = (delta2 @ self.params["W2"].T) * (1.0 - h1 ** 2)
        dW1 = (X.T @ delta1) / N
        db1 = np.mean(delta1, axis=0, keepdims=True)

        self.grads = {"W1": dW1, "b1": db1, "W2": dW2, "b2": db2}
        return self.grads

4.2 梯度检查结果 (Gradient Check Results)

我们用 backpropagation.py 中的 full_gradient_check() 对所有 4 组参数验证。结果：

  ✓ W1: max|diff| = 1.30e-11  (through 20 dimensions)
  ✓ b1: max|diff| = 7.66e-12  (through 10 dimensions)
  ✓ W2: max|diff| = 1.43e-11  (through 10 dimensions)
  ✓ b2: max|diff| = 1.62e-12  (through 1 dimension)

所有 |diff| 在 $10^{- 11}$ 到 $10^{- 12}$ 量级，远低于 $10^{- 6}$ 阈值。反向传播公式正确！

4.3 训练与决策边界 (Training & Decision Boundary)

在 sklearn 风格的 moons 二分类（classification /ˌklæsɪfɪˈkeɪʃən/）数据集上训练（200 样本，noise=0.1）：

Step 5: Training
  Epoch    1 | Loss = 0.927862 | Acc = 0.3600
  Epoch  100 | Loss = 0.290621 | Acc = 0.8600
  Epoch  200 | Loss = 0.285902 | Acc = 0.8600
  Epoch  300 | Loss = 0.278738 | Acc = 0.8750
  Epoch  400 | Loss = 0.237570 | Acc = 0.8850
  Epoch  500 | Loss = 0.151477 | Acc = 0.9500

  Final loss: 0.151477
  Final acc:  0.9500

训练曲线

损失从 0.928 降至 0.151，准确率从 36% 提升至 95%。500 个 epoch 后的决策边界清晰地分离了两个半月形：

决策边界

本章演算盒索引

位置	演算盒	跳转
§1	🔍 单神经元梯度计算 — w=2,x=3,y=0	跳转
§2	🔍 2 层网络反向传播手算 — 2→2→1	跳转

5. 关键总结 (Key Summary)

核心公式

概念	公式	含义
误差信号 $δ^{(ℓ)}$	$δ^{(ℓ)} = (W^{(ℓ + 1)})^{⊤} δ^{(ℓ + 1)} ⊙ σ^{'} (z^{(ℓ)})$	上层误差通过权重回传，经激活函数导数的"门控"
权重梯度	$\partial L / \partial W^{(ℓ)} = \frac{1}{N} (a^{(ℓ - 1)})^{⊤} δ^{(ℓ)}$	下层激活 × 本层误差信号
偏置梯度	$\partial L / \partial b^{(ℓ)} = \frac{1}{N} \sum δ^{(ℓ)}$	误差信号的平均值
数值梯度验证	$\frac{f (θ + ε) - f (θ - ε)}{2 ε}$	中心差分， $ε = 10^{- 5}$ ，要求 $

关键洞察

链式法则是唯一需要的数学工具 — 反向传播就是递归地应用链式法则，从输出层逐层向输入层传播梯度
局部梯度 × 传播梯度 = 参数梯度 — 每个节点的梯度 = 上游传播来的梯度 × 该节点自身的局部梯度
梯度检查是调试的必备技能 — 在实现新的网络结构时，永远先用数值梯度验证你的解析梯度
"误差反向传播"这个名字很贴切 — $δ^{(ℓ)}$ 就是"误差信号"，它从输出层开始，逐层向后"传播"

与后续章节的联系

后续章节	联系
第 3 章 (训练技巧)	反向传播的改进：动量（momentum /məˈmentəm/）、Adam、梯度裁剪
第 4 章 (CNN)	反向传播在卷积（convolution /ˌkɒnvəˈluːʃən/）层中的适配（卷积转置）
第 5 章 (RNN)	通过时间的反向传播 (BPTT)
Transformer（/trænsˈfɔːrmər/）	自注意力（attention /əˈtenʃən/）的反向传播 — 更复杂的计算图

动手练习

推导练习： 为 3 层网络（2 个隐藏层 + 1 个输出层）推导反向传播公式
代码练习： 将隐藏层激活从 Tanh 改为 ReLU，修改 backward() 中的对应行，验证梯度检查仍通过
实验练习： 在 backpropagation.py 中改变隐藏层神经元数（5, 10, 20, 50），观察最终准确率的变化
深入练习： 添加 L2 正则化（regularization /ˌreɡjələraɪˈzeɪʃən/），推导修改后的梯度公式，验证梯度检查

下章预告： 第 3 章将介绍训练技巧 (Training Techniques) — 权重初始化、批归一化（normalization /ˌnɔːrmələˈzeɪʃən/） (Batch Normalization)、Dropout（/ˈdrɒpaʊt/）、学习率调度等让神经网络训练更稳定的实用技术。

Last updated: 2026-06-02

参考文献 (References)

Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536.
LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proc. IEEE, 86(11), 2278–2324.

第2章 反向传播 — 神经网络的学习算法 ​

Chapter 2: Backpropagation — The Learning Algorithm of Neural Networks ​

目录 (Table of Contents) ​

1. 计算图 (Computation Graph) ​

1.1 前向传播的图形化表示 (Forward Pass Visualization) ​

1.2 计算图上的梯度传播 (Gradient Flow on Computation Graph) ​

2. 链式法则递归应用 (Recursive Chain Rule) ​

符号定义 (Notation) ​

前向传播 (Forward Pass) ​

2.1 输出层 (Layer 2 — Output Layer) ​

梯度 1: ∂L/∂z2 ​

梯度 2: ∂L/∂W2 和 ∂L/∂b2 ​

2.2 隐藏层 (Layer 1 — Hidden Layer) ​

误差传播到第一层 ​

通过激活函数传播 ​

对 W1,b1 的梯度 ​

2.3 梯度汇总 (Gradient Summary) ​

3. 数值梯度验证 (Gradient Check) ​

有限差分法 (Finite Differences) ​

验证标准 (Verification Criteria) ​

代码实现 (Code Implementation) ​

运行输出 (Actual Output) ​

4. 2 层网络的完整实现 (Complete 2-Layer Implementation) ​

4.1 前向与反向传播 (Forward & Backward) ​

4.2 梯度检查结果 (Gradient Check Results) ​

4.3 训练与决策边界 (Training & Decision Boundary) ​

本章演算盒索引 ​

5. 关键总结 (Key Summary) ​

核心公式 ​

关键洞察 ​

与后续章节的联系 ​

动手练习 ​

参考文献 (References) ​