第5章循环神经网络与序列模型

Chapter 5: Recurrent Neural Networks and Sequence Models

序列数据无处不在：文本、语音、时间序列、基因序列……RNN 是第一个真正为序列建模而设计的神经网络架构。 本章推导 RNN 的核（kernel /ˈkɜːrnl/）心机制——循环计算图与随时间反向传播（backpropagation /ˌbækprəpəˈɡeɪʃən/）（BPTT），并深入 LSTM 的门控机制如何解决长程依赖问题。最后，我们分析 RNN 的固有瓶颈，并以此为桥梁引出注意力（attention /əˈtenʃən/）机制（Attention），为后续 Transformer（/trænsˈfɔːrmər/）的学习做好铺垫。
时间线:
1982: Hopfield 提出 Hopfield 网络
1990: Elman 提出简单循环网络（SRN）
1997: Hochreiter & Schmidhuber 发表 LSTM
Sequential data is everywhere: text, speech, time series, gene sequences... RNN is the first neural architecture truly designed for sequence modeling. This chapter derives RNN's core mechanism — the recurrent computation graph and Backpropagation Through Time (BPTT) — and dives into how LSTM's gating mechanism solves long-term dependency problems. Finally, we analyze RNN's inherent bottleneck, building a bridge to the Attention mechanism that follows in Volume 5.

前置知识 (Prerequisites): 前馈神经网络基础（第4章第1-2节），矩阵求导（AI数学基础第3章），反向传播（第4章第3节） 依赖库 (Dependencies): torch>=2.1.0, numpyCode companion: code/rnn_lstm.py

目录 (Table of Contents)

RNN 循环计算图 (RNN Recurrent Computation Graph)
LSTM (Long Short-Term Memory)
GRU (Gated Recurrent Unit)
- 3.1 GRU 的设计动机
- 3.2 GRU 公式推导
- 3.3 LSTM vs GRU
编码器（encoder /ɪnˈkoʊdər/）-解码器（decoder /diːˈkoʊdər/）架构 (Encoder-Decoder Architecture)
- 4.1 固定维度的上下文向量
- 4.2 编码器-解码器的信息瓶颈
为什么需要 Attention？
- 5.1 从瓶颈到查阅
- 5.2 Attention 的直觉
小结 (Summary)

1. RNN 循环计算图 (RNN Recurrent Computation Graph)

1.1 问题定义：为什么需要"循环"？

前馈网络（FNN）有一个根本性限制：输入长度必须固定。

对于一条句子，例如 "I love neural networks"，我们无法预先知道句子的长度。更重要的是，词与词之间有顺序依赖关系——"love" 的语义受到前面的 "I" 的影响。如果只是把每个词独立地送入一个全连接层，前后信息就被割裂了。

RNN 的解决方案：引入一个隐藏状态 (hidden state) $h_{t}$ ，它在每个时间步更新，并携带过去的信息：

h_{t} = f (h_{t - 1}, x_{t})

1.2 RNN 基本公式

最简单的 RNN（有时称为 Elman RNN）定义如下：

隐藏状态更新 (Hidden State Update):

h_{t} = \tanh (W_{h h} h_{t - 1} + W_{x h} x_{t} + b_{h})

输出 (Output):

y_{t} = W_{h y} h_{t} + b_{y}

其中：

$x_{t} \in R^{d}$ — 在时间步 $t$ 的输入向量（如词嵌入（embedding /ɪmˈbedɪŋ/））
$h_{t - 1} \in R^{d_{h}}$ — 上一个时间步的隐藏状态
$h_{t} \in R^{d_{h}}$ — 当前时间步的隐藏状态
$W_{h h} \in R^{d_{h} \times d_{h}}$ — 循环权重矩阵（RNN 的核心——连接前后时间步）
$W_{x h} \in R^{d_{h} \times d}$ — 输入权重矩阵
$W_{h y} \in R^{d_{y} \times d_{h}}$ — 输出权重矩阵
$b_{h}, b_{y}$ — 偏置项
$\tanh$ — 激活函数（将值压缩到 $(- 1, 1)$ ，给非线性以稳定梯度）

关键观察： $W_{h h}$ 在所有时间步共享。这意味着无论序列多长，RNN 都在使用同一组参数（parameter /pəˈræmɪtər/）处理每一个时间步——这就是"循环"的含义。

1.3 展开的计算图 (Unrolled Graph)

将循环结构"展开"成时间维度的前馈图，有助于理解 RNN 的计算流：

        y_1         y_2         y_3         y_T
        ↑           ↑           ↑           ↑
        W_hy        W_hy        W_hy        W_hy
    ┌───┴───┐   ┌───┴───┐   ┌───┴───┐   ┌───┴───┐
h_0→│ h_1  │→→→│ h_2  │→→→│ h_3  │→⋯→│ h_T  │
    └───┬───┘   └───┬───┘   └───┬───┘   └───┬───┘
        ↑           ↑           ↑           ↑
       x_1         x_2         x_3         x_T

图 5.1: RNN 展开后的计算图。注意 $W_{h h}$ 在所有时间步是同一个矩阵——虚箭头代表循环连接，展开后变成从左到右的实心传递。

展开后的视角：RNN 等价于一个极深的"前馈"网络，其深度等于序列长度 $T$ 。每一层的权重都相同（参数共享）。这使得 BPTT 在概念上就是普通 BP 在展开图上的直接应用。

1.4 随时间反向传播 (BPTT)

BPTT (Backpropagation Through Time) 就是在展开后的计算图上应用反向传播。

损失函数

定义在 $T$ 个时间步上的总损失为每个时间步损失的累加：

L = \sum_{t = 1}^{T} L_{t} (y_{t}, {\hat{y}}_{t})

以 MSE 为例： $L_{t} = \frac{1}{2} ∥ y_{t} - {\hat{y}}_{t} ∥_{2}^{2}$ 。

对 $W_{h y}$ 的梯度

$W_{h y}$ 直接影响输出 $y_{t}$ ，梯度可以直接从每个时间步反向传播回来：

\frac{\partial L}{\partial W_{h y}} = \sum_{t = 1}^{T} \frac{\partial L_{t}}{\partial W_{h y}} = \sum_{t = 1}^{T} \frac{\partial L_{t}}{\partial y_{t}} \cdot h_{t}^{T}

对 $W_{h h}$ 的梯度（关键）

$W_{h h}$ 的梯度需要沿时间方向传播，因为 $h_{t}$ 依赖于 $h_{t - 1}$ 。考虑一个具体时间步 $t$ 对 $W_{h h}$ 的影响：

\frac{\partial L_{t}}{\partial W_{h h}} = \sum_{k = 1}^{t} \frac{\partial L_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial h_{k}} \frac{\partial h_{k}}{\partial W_{h h}}

核心在于 $\frac{\partial h_{t}}{\partial h_{k}}$ — 这是从时间 $k$ 到时间 $t$ 的梯度链：

\frac{\partial h_{t}}{\partial h_{k}} = \prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}} = \prod_{j = k + 1}^{t} diag (1 - h_{j}^{2}) \cdot W_{h h}

其中 $diag (1 - h_{j}^{2})$ 来自 $\tanh$ 的导数： $\frac{d}{d x} \tanh (x) = 1 - \tanh^{2} (x)$ 。

最终，对 $W_{h h}$ 的梯度是所有路径的总和：

\frac{\partial L}{\partial W_{h h}} = \sum_{t = 1}^{T} \sum_{k = 1}^{t} \frac{\partial L_{t}}{\partial h_{t}} (\prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}}) \frac{\partial h_{k}}{\partial W_{h h}}

🔍 完整演算：BPTT 梯度链 — 3 步标量 RNN 手算

📐 公式

随时间反向传播（BPTT）中，损失 $L_{t}$ 对循环权重 $W_{h h}$ 的梯度为：

\frac{\partial L_{t}}{\partial W_{h h}} = \sum_{k = 1}^{t} \frac{\partial L_{t}}{\partial h_{t}} (\prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}}) \frac{\partial h_{k}}{\partial W_{h h}}

其中梯度链的核心传递因子为：

\frac{\partial h_{j}}{\partial h_{j - 1}} = diag (1 - h_{j}^{2}) \cdot W_{h h}

对标量 RNN（ $d_{h} = 1$ ），上式简化为：

\frac{\partial h_{j}}{\partial h_{j - 1}} = (1 - h_{j}^{2}) \cdot W_{h h}

📖 参数含义

符号	名称	含义
$L_{t}$	时间步 $t$ 的损失	模型预测与真实值的误差
$W_{h h}$	循环权重矩阵	控制隐藏状态在时间步间的传递
$h_{j}$	时间步 $j$ 的隐藏状态	RNN 的"记忆"载体
$\partial h_{j} / \partial h_{j - 1}$	梯度传递因子	衡量误差信号在相邻时间步的衰减或放大
$1 - h_{j}^{2}$	$\tanh$ 的导数	值域 $(0, 1]$ ， $h_{j} = 0$ 时取最大值 1

📝 公式来源

从 RNN 前向公式 $h_{t} = \tanh (W_{h h} h_{t - 1} + W_{x h} x_{t} + b_{h})$ 出发，对 $h_{t - 1}$ 求导：

\frac{\partial h_{t}}{\partial h_{t - 1}} = \frac{\partial}{\partial h_{t - 1}} \tanh (W_{h h} h_{t - 1} + 其它项)

由链式法则和 $\tanh^{'} (x) = 1 - \tanh^{2} (x)$ ：

\frac{\partial h_{t}}{\partial h_{t - 1}} = (1 - h_{t}^{2}) \cdot W_{h h}

当时间步跨度 $t - k$ 较大时，梯度需连乘 $t - k$ 个这样的因子——这正是梯度消失/爆炸的数学根源。

✏️ 手算演示

考虑一个标量 RNN（输入维度 $d = 1$ ，隐藏维度 $d_{h} = 1$ ），给定参数与输入序列：

W_{h h} = 0.5, W_{x h} = 1.0, b_{h} = 0.0, h_{0} = 0.0

x_{1} = 1.0, x_{2} = 0.5, x_{3} = - 0.2

Step 1: 前向传播

h_{1} = \tanh (0.5 \times 0.0 + 1.0 \times 1.0) = \tanh (1.000) = 0.7616

h_{2} = \tanh (0.5 \times 0.7616 + 1.0 \times 0.5) = \tanh (0.8808) = 0.7064

h_{3} = \tanh (0.5 \times 0.7064 + 1.0 \times (- 0.2)) = \tanh (0.1532) = 0.1520

Step 2: 计算相邻时间步的梯度传递因子

\frac{\partial h_{2}}{\partial h_{1}} = (1 - h_{2}^{2}) \times W_{h h} = (1 - {0.7064}^{2}) \times 0.5 = (1 - 0.4990) \times 0.5 = 0.2505

\frac{\partial h_{3}}{\partial h_{2}} = (1 - h_{3}^{2}) \times W_{h h} = (1 - {0.1520}^{2}) \times 0.5 = (1 - 0.0231) \times 0.5 = 0.4885

Step 3: 计算远距离梯度链（ $h_{1} \to h_{3}$ ，跨越 2 步）

\frac{\partial h_{3}}{\partial h_{1}} = \frac{\partial h_{3}}{\partial h_{2}} \times \frac{\partial h_{2}}{\partial h_{1}} = 0.4885 \times 0.2505 = 0.1224

结果：仅跨越 2 步，梯度就衰减到了约 12%。若序列长度 $T = 100$ （这在 NLP 中很常见），梯度必然消失到 0。

Step 4: 代入不同 $W_{h h}$ 观察影响

$W_{h h}$	$\partial h_{2} / \partial h_{1}$	$\partial h_{3} / \partial h_{2}$	$\partial h_{3} / \partial h_{1}$ （2 步累积）
0.5	0.2505	0.4885	0.1224 — ✅ 梯度消失
0.9	0.4509	0.8792	0.3965 — ⚠️ 长序列仍会消失
2.0	1.0020	1.9538	1.9581 — ❌ 梯度爆炸

梯度爆炸验证（ $W_{h h} = 2.0$ ）：

\frac{\partial h_{2}}{\partial h_{1}} = (1 - {0.7064}^{2}) \times 2.0 = 0.5010 \times 2.0 = 1.002

\frac{\partial h_{3}}{\partial h_{2}} = (1 - {0.1520}^{2}) \times 2.0 = 0.9769 \times 2.0 = 1.954

\frac{\partial h_{3}}{\partial h_{1}} = 1.002 \times 1.954 = 1.958

经过 20 步，梯度将达到约 ${1.002}^{20} \times {1.954}^{19} \approx 2.5 \times 10^{5}$ ，完全不可训练。

🌍 实际意义

梯度消失是 vanilla RNN 无法学习长程依赖的根本原因：理论分析（Bengio et al., 1994）表明，vanilla RNN 在实践中很难捕捉超过 5—10 步的依赖关系。
梯度爆炸导致训练不稳定（NaN 损失），实际解决方案是梯度裁剪（Gradient Clipping）——将梯度模长限制在阈值以内，详见 §1.5。
LSTM 的核心贡献就是通过加性细胞状态替代乘性梯度路径，从根本上解决梯度消失问题（详见 §2.6）。

1.5 梯度消失与梯度爆炸

从上面的推导，我们得到：

\frac{\partial h_{j}}{\partial h_{j - 1}} = diag (1 - h_{j}^{2}) \cdot W_{h h}

这是一个连乘结构。假设我们定义矩阵谱范数 $∥ W_{h h} ∥_{2}$ ：

如果 $∥ W_{h h} ∥_{2} < 1$ ：连乘项 $\prod \frac{\partial h_{j}}{\partial h_{j - 1}} \to 0$ 当 $t - k$ 很大时 ⟹ 梯度消失 (Vanishing Gradient)
如果 $∥ W_{h h} ∥_{2} > 1$ ：连乘项 $\prod \frac{\partial h_{j}}{\partial h_{j - 1}} \to \infty$ 当 $t - k$ 很大时 ⟹ 梯度爆炸 (Exploding Gradient)

为什么这是致命问题？
梯度消失意味着距离较远的时间步对当前参数的更新几乎没有贡献。RNN 无法学习"长程依赖"——例如在句子 "I grew up in France... I speak French" 中，最后一个词需要记忆前面的 "France"。如果距离太远，梯度消失使得这种学习几乎不可能。
梯度爆炸意味着参数更新过大，训练不稳定（NaN 损失）。解决办法：梯度裁剪 (Gradient Clipping) — 将梯度的模控制在阈值以内。
$if ∥ g ∥ > threshold: g \leftarrow \frac{threshold}{∥ g ∥} \cdot g$

核心洞察： 梯度消失的根本原因是连乘结构。LSTM 的核心贡献就是通过加性的细胞状态来替代乘性的梯度传递路径。

2. LSTM (Long Short-Term Memory)

LSTM 由 Hochreiter & Schmidhuber 于 1997 年提出，后来经过多次改进（尤其是 forget gate 的加入）。它是解决 RNN 梯度消失问题最具影响力的方案。

2.1 核心思想：信息高速公路

LSTM 引入了一个新的内部状态——细胞状态 (Cell State) $C_{t}$ ，作为信息传递的"高速公路"。与 $h_{t}$ 不同， $C_{t}$ 上的信息流受到精心设计的三个门的调控：

                    ┌──────────────────────────────────────┐
                    │           LSTM Cell                   │
                    │                                      │
    h_{t-1} ────────┼─────────────────────────────────┐    │
                    │                ┌─────┐           │    │
                    │    ┌─────┐     │tanh │     ┌───┐ │    │
    x_t ────────────┼────┤σ    │     │    │      │σ  │ │    │
                    │    │     │────▶│    │─────▶│   │─┼────┤───▶ h_t
                    │    │forget     │input│      │output │    │
                    │    └─────┘     │    │      │   │ │    │
                    │                └─────┘      └───┘ │    │
                    │                   │              │ │    │
                    │         ┌─────┐   │              │ │    │
                    │         │ σ   │  │              │ │    │
                    │         │     │──┘              │ │    │
                    │         │input gate             │ │    │
                    │         └─────┘                  │    │
                    │                                  │    │
                    │  C_{t-1} ────────────⊕───────────┘    │
                    │                         │             │
                    │                         └────▶ C_t    │
                    └──────────────────────────────────────┘

图 5.2: LSTM 细胞内部结构示意图。三条"门"控制信息的流入、保持和流出。细胞状态 $C_{t}$ 如同传送带贯穿整个链式结构，只有少量的线性交互。

2.2 遗忘门 (Forget Gate)

功能：决定从旧细胞状态 $C_{t - 1}$ 中丢弃哪些信息。

为什么需要？ 当网络进入新的上下文时，旧信息可能不再相关。例如在 "她开始阅读一本书... 她合上了它" 中，"阅读"的动词形态完成后，关于"正在阅读"的信息应该被遗忘门清除。

公式：

f_{t} = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f})

其中 $[h_{t - 1}, x_{t}] \in R^{d_{h} + d}$ 是将隐藏状态和输入拼接后的向量， $W_{f} \in R^{d_{h} \times (d_{h} + d)}$ 。

输出 $f_{t} \in (0, 1)^{d_{h}}$ 是一个逐元素的掩码 —— 值为 0 表示"完全遗忘"，1 表示"完全保留"。

2.3 输入门 (Input Gate)

功能：决定在细胞状态中存储哪些新信息。

为什么需要？ 不是所有的新输入都值得被记住。输入门充当"筛选器"，让重要的新信息进入细胞状态。

输入门由两部分组成：

a) 输入门控制信号（决定更新哪些值）：

i_{t} = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i})

b) 候选细胞状态（生成新的候选值）：

{\tilde{C}}_{t} = \tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C})

这里 $\tanh$ 将候选值压缩到 $(- 1, 1)$ 范围， $i_{t}$ 控制哪些候选值被采纳。

2.4 细胞状态更新 (Cell State Update)

这是 LSTM 中最关键的一步：

C_{t} = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t}

其中 $⊙$ 表示逐元素乘法 (Hadamard Product)。

直观理解：

$f_{t} ⊙ C_{t - 1}$ — 遗忘门决定保留多少旧记忆
$i_{t} ⊙ {\tilde{C}}_{t}$ — 输入门决定写入多少新信息
两者相加得到新的细胞状态

核心洞察：从 $C_{t - 1}$ 到 $C_{t}$ 的梯度路径是加法而非乘法。即使遗忘门接近 1，梯度也能完好无损地沿 $C_{t}$ 路径向后传播。

2.5 输出门 (Output Gate)

功能：基于细胞状态 $C_{t}$ 生成当前时间步的隐藏状态 $h_{t}$ （输出给上层和下一时间步）。

公式：

o_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o})

h_{t} = o_{t} ⊙ \tanh (C_{t})

$\tanh (C_{t})$ 将细胞状态压缩到 $(- 1, 1)$ ， $o_{t}$ 控制输出哪些部分。

2.6 为什么 LSTM 能缓解梯度消失？

这是本章最重要的问题之一。让我们比较 RNN 和 LSTM 的梯度路径。

RNN 的梯度路径（纯乘性）：

\frac{\partial h_{t}}{\partial h_{t - 1}} = diag (1 - h_{t}^{2}) \cdot W_{h h}

这是一个矩阵乘法。链式法则使得远距离的梯度趋于 0（或无穷大）。

LSTM 的梯度路径（加性为主）：

考虑从 $C_{t}$ 到 $C_{t - 1}$ 的梯度：

C_{t} = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t}

\frac{\partial C_{t}}{\partial C_{t - 1}} = diag (f_{t}) + (其他项，来自 i_{t}, {\tilde{C}}_{t} 对 C_{t - 1} 的依赖)

关键观察：

主导项 $diag (f_{t})$ ：细胞状态的梯度通过遗忘门直接向后传递，这是一个逐元素缩放而非矩阵乘法。
当 $f_{t} \approx 1$ 时，梯度项 $\approx 1$ ，远距离梯度信号几乎无损传递。
加法结构： $C_{t}$ 的更新是加法（ $C_{t - 1} + Δ$ ），而非乘法（ $W \cdot C_{t - 1}$ ），梯度不会在每一步被压缩。

即使 $f_{t}$ 变小（忘记旧信息），梯度路径也可以通过输入门 $i_{t}$ 获得新的通路。

简洁表述：RNN 的误差信号在时间上必须连续穿越 $W_{h h}$ 矩阵（乘性），而 LSTM 的误差信号可以选择一条"高速公路"——通过 $C_{t}$ 路径的加法捷径，几乎无损地传播到远处。

2.7 完整 LSTM 前向传播总结

将以上所有公式汇总：

\begin{aligned} f_{t} & = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f}) & (遗忘门) \\ i_{t} & = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i}) & (输入门) \\ {\tilde{C}}_{t} & = \tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C}) & (候选细胞) \\ C_{t} & = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t} & (细胞状态更新) \\ o_{t} & = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o}) & (输出门) \\ h_{t} & = o_{t} ⊙ \tanh (C_{t}) & (隐藏状态输出) \end{aligned}

输入维度： $x_{t} \in R^{d}$ ，隐藏状态： $h_{t} \in R^{d_{h}}$ ，细胞状态： $C_{t} \in R^{d_{h}}$ 。

参数数量：LSTM 有 4 组权重矩阵（ $W_{f}, W_{i}, W_{C}, W_{o}$ ）+ 4 组偏置，每组大小为 $W \in R^{d_{h} \times (d_{h} + d)}$ ， $b \in R^{d_{h}}$ 。

参数量 = 4 \times [d_{h} \times (d_{h} + d) + d_{h}]

🔍 完整演算：LSTM 门控计算 — 2 步标量 LSTM 手算与梯度对比

📐 公式

LSTM 前向传播的完整公式组：

\begin{aligned} f_{t} & = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f}) \\ i_{t} & = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i}) \\ {\tilde{C}}_{t} & = \tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C}) \\ C_{t} & = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t} \\ o_{t} & = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o}) \\ h_{t} & = o_{t} ⊙ \tanh (C_{t}) \end{aligned}

其中 $σ (x) = 1 / (1 + e^{- x})$ 为 sigmoid 函数，输出值域 $(0, 1)$ 。

📖 参数含义

符号	名称	含义
$f_{t}$	遗忘门	控制保留 $C_{t - 1}$ 的比例，值域 $(0, 1)$
$i_{t}$	输入门	控制写入新信息的比例，值域 $(0, 1)$
${\tilde{C}}_{t}$	候选细胞状态	可能写入细胞的新信息，值域 $(- 1, 1)$
$C_{t}$	细胞状态	LSTM 的"记忆线"，信息传递主干道
$o_{t}$	输出门	控制从 $C_{t}$ 输出到 $h_{t}$ 的比例，值域 $(0, 1)$
$h_{t}$	隐藏状态	LSTM 的输出（给上层和下一时间步）
$⊙$	Hadamard 积	逐元素乘法

📝 公式来源

LSTM 的设计动机源于解决 RNN 梯度消失问题。核心思想是用加性的细胞状态更新 $C_{t} = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ {\tilde{C}}_{t}$ 替代 RNN 的乘性隐藏状态更新 $h_{t} = \tanh (W_{h h} h_{t - 1} + \dots)$ 。

梯度从 $C_{t}$ 到 $C_{t - 1}$ 的传递为 $\partial C_{t} / \partial C_{t - 1} = diag (f_{t}) + (其它项)$ ，主导项 $diag (f_{t})$ 是逐元素缩放而非矩阵乘法——当 $f_{t} \approx 1$ 时，梯度几乎无损。

✏️ 手算演示

考虑一个标量 LSTM（ $d = d_{h} = 1$ ），给定参数：

\begin{aligned} W_{f} & = [0.1, 0.9], b_{f} = 0.5 & (遗忘门偏向"记住") \\ W_{i} & = [0.3, 0.7], b_{i} = - 0.2 & (输入门偏向"筛选") \\ W_{C} & = [0.2, 0.8], b_{C} = 0.1 & (候选细胞) \\ W_{o} & = [0.4, 0.6], b_{o} = 0.0 & (输出门) \end{aligned}

初始状态： $h_{0} = 0.0$ ， $C_{0} = 0.0$

输入序列： $x_{1} = 1.0$ （重要信息）， $x_{2} = 0.0$ （中性输入）

Step 1: 时间步 $t = 1$

f_{1} = σ (0.1 \times 0.0 + 0.9 \times 1.0 + 0.5) = σ (1.400) = 0.802

i_{1} = σ (0.3 \times 0.0 + 0.7 \times 1.0 - 0.2) = σ (0.500) = 0.622

{\tilde{C}}_{1} = \tanh (0.2 \times 0.0 + 0.8 \times 1.0 + 0.1) = \tanh (0.900) = 0.716

C_{1} = 0.802 \times 0.0 + 0.622 \times 0.716 = 0.445

o_{1} = σ (0.4 \times 0.0 + 0.6 \times 1.0 + 0.0) = σ (0.600) = 0.646

h_{1} = 0.646 \times \tanh (0.445) = 0.646 \times 0.418 = 0.270

Step 2: 时间步 $t = 2$

f_{2} = σ (0.1 \times 0.270 + 0.9 \times 0.0 + 0.5) = σ (0.527) = 0.629

i_{2} = σ (0.3 \times 0.270 + 0.7 \times 0.0 - 0.2) = σ (- 0.119) = 0.470

{\tilde{C}}_{2} = \tanh (0.2 \times 0.270 + 0.8 \times 0.0 + 0.1) = \tanh (0.154) = 0.153

C_{2} = 0.629 \times 0.445 + 0.470 \times 0.153 = 0.280 + 0.072 = 0.352

o_{2} = σ (0.4 \times 0.270 + 0.6 \times 0.0 + 0.0) = σ (0.108) = 0.527

h_{2} = 0.527 \times \tanh (0.352) = 0.527 \times 0.338 = 0.178

关键观察：信息保留

$C_{1} = 0.445$ 中有 $62.9 %$ （ $f_{2} = 0.629$ ）被保留到了 $C_{2}$ 。即使 $x_{2} = 0.0$ 不携带新信息，细胞状态仍保留了 $C_{2} = 0.352$ （ $C_{1}$ 的 $79 %$ ），远未被"清零"。

梯度对比：LSTM vs Vanilla RNN

考虑从时间步 2 到时间步 1 的梯度传播：

架构	梯度传递因子	值	10 步累积
LSTM	$\partial C_{2} / \partial C_{1} \approx f_{2}$	0.629	${0.629}^{10} \approx 0.010$
Vanilla RNN	$\partial h_{2} / \partial h_{1} = (1 - h_{2}^{2}) W_{h h}$	0.434	${0.434}^{10} \approx 0.0002$

（Vanilla RNN 的 $W_{h h}$ 设为 0.5，与 LSTM 遗忘门处于相近量级）

LSTM 经过 10 步仍保留约 1% 的梯度信号，而 RNN 的梯度已几乎完全消失（0.02%）。这正是 LSTM 能学习长程依赖（如"France $\to$ French"跨越 10+ 词）的根本原因。

🌍 实际意义

LSTM 解决了 NLP 中长距离依赖的核心难题：机器翻译中的性别一致、代词的远距离指代、情感分析中的转折词等。
$f_{t}$ 的可学习性使 LSTM 能根据上下文动态决定"记忆多久"，这比固定衰减的 RNN 灵活得多。
1997 年提出至今，LSTM 仍是时间序列预测、语音识别等领域的强力基线模型。

3. GRU (Gated Recurrent Unit)

GRU 由 Cho et al. 于 2014 年提出，是 LSTM 的简化变体。

3.1 GRU 的设计动机

LSTM 有三个门和一个独立的细胞状态。GRU 观察到：

遗忘门和输入门常常是互补的（忘记旧信息 = 留出空间给新信息）
细胞状态 $C_{t}$ 和隐藏状态 $h_{t}$ 可以合并

于是 GRU 将门减少到两个，合并了细胞状态和隐藏状态。

3.2 GRU 公式推导

重置门 (Reset Gate) $r_{t}$ ：控制忽略过去隐藏状态的程度。

r_{t} = σ (W_{r} \cdot [h_{t - 1}, x_{t}] + b_{r})

更新门 (Update Gate) $z_{t}$ ：控制从过去的隐藏状态中保留多少信息，类似于 LSTM 中遗忘门和输入门的组合。

z_{t} = σ (W_{z} \cdot [h_{t - 1}, x_{t}] + b_{z})

候选隐藏状态：使用重置门来"重置"旧状态。

{\tilde{h}}_{t} = \tanh (W_{h} \cdot [r_{t} ⊙ h_{t - 1}, x_{t}] + b_{h})

注意这里 $r_{t} ⊙ h_{t - 1}$ — 当 $r_{t}$ 接近 0 时，GRU 忽略过去的隐藏状态，就像从头开始。

最终隐藏状态：更新门 $z_{t}$ 在新旧之间做插值。

h_{t} = (1 - z_{t}) ⊙ h_{t - 1} + z_{t} ⊙ {\tilde{h}}_{t}

直观理解：这是可学习的加权平均。 $z_{t}$ 接近 0 时保留更多旧信息（类似遗忘门 = 1），接近 1 时接受更多新信息（类似遗忘门 = 0，输入门 = 1）。

3.3 LSTM vs GRU

特性	LSTM	GRU
门数量	3 (f, i, o)	2 (r, z)
内部状态	细胞状态 $C_{t}$ + 隐藏状态 $h_{t}$	只有隐藏状态 $h_{t}$
参数量	$4 (d_{h} (d_{h} + d) + d_{h})$	$3 (d_{h} (d_{h} + d) + d_{h})$
表达能力	理论上更灵活（独立控制遗忘/写入/输出）	更简洁，参数量少约 25%
实际表现	长序列任务稍优	许多任务上与 LSTM 持平
训练速度	稍慢	稍快

经验法则：如果数据量很大，LSTM 的额外参数可能带来精度提升；如果计算资源受限或追求快速迭代，GRU 是不错的选择。

4. 编码器-解码器架构 (Encoder-Decoder Architecture)

4.1 固定维度的上下文向量

编码器-解码器（Encoder-Decoder）架构由 Cho et al. 和 Sutskever et al. 在 2014 年独立提出。也称为 Seq2Seq (Sequence-to-Sequence)。

基本结构：

    编码器 (Encoder)             解码器 (Decoder)

    x_1 → [RNN]                  y_1 → [RNN] → y_1_pred
    x_2 → [RNN]                  y_2 → [RNN] → y_2_pred
    ...          ↘            ↗  ...
    x_T → [RNN] → [context] → [RNN] → y_T_pred
                    ↓
              固定维度向量
           (通常取 h_T 或某种聚合)

流程：

编码：将输入序列 ${x_{1}, x_{2}, . . ., x_{T}}$ 依次送入 RNN 编码器，最终得到上下文向量 $c$ ：

h_{t}^{enc} = {RNN}_{enc} (h_{t - 1}^{enc}, x_{t}), c = h_{T}^{enc}

解码：基于上下文向量 $c$ 和已生成的输出，逐个时间步生成目标序列 ${y_{1}, y_{2}, . . ., y_{T^{'}}}$ ：

h_{t}^{dec} = {RNN}_{dec} (h_{t - 1}^{dec}, [y_{t - 1}, c])

y_{t}^{pred} = softmax (W_{y} h_{t}^{dec} + b_{y})

4.2 编码器-解码器的信息瓶颈

核心问题：无论输入序列多长，编码器必须将全部信息压缩到一个固定维度的向量 $c$ 中。

这个 $c$ 的维度 $d_{h}$ 通常远小于输入序列包含的信息量（比如 $d_{h} = 256$ 却要编码包含几十个词的句子）。这造成了严重的信息瓶颈：

对于短句（如 "Hello world"），256 维向量可能够用
对于长句（如 "The man who gave a speech about... yesterday finally..."），256 维向量几乎不可能保留所有细节
解码器在每个时间步都看到同一个 $c$ ，没有机制去"关注"输入序列特定位置的信息

直觉类比：这就像你闭着眼睛听别人复述整篇论文的内容摘要，然后要求你逐字写出全文——摘要中丢失的细节无法被恢复。

5. 为什么需要 Attention？

5.1 从瓶颈到查阅

Attention 机制的核心思想非常直观：

在解码的每一步，不依赖单一的上下文向量，而是"查阅"编码器的所有隐藏状态，动态选择相关信息。

5.2 Attention 的直觉

让我们用类比来理解（不涉及 Attention 的具体计算——那将在 Vol 5 第 1 章展开）：

无 Attention（RNN Encoder-Decoder）:

你参观一座博物馆，在入口处被迫写下一段描述整座博物馆的文字，然后进入各个展厅时只能依靠这段文字来回忆展品。显然，你不可能在入口描述所有细节。

有 Attention:

在每一个展厅，你直接看向当前展品，并翻阅之前写下的笔记，找到与当前展品最相关的记录。你本质上是在有选择地查阅所有信息源。

核心列表对比：

特性	RNN (无 Attention)	Transformer (有 Attention)
信息传递	通过固定向量 $c$ 传递整个序列	动态选择相关位置的信息
长程依赖	困难（梯度消失）	直连（任意两个位置步长 = 1）
并行化	必须串行（后一步依赖前一步的 $h_{t}$ ）	可以完全并行
瓶颈	上下文向量维度固定	无信息瓶颈

Attention 的完整公式将在《第 6 卷 Transformer》第 1 章中给出。 本章的 core 结论是：RNN 的循环结构（串行、乘性梯度路径、固定上下文向量）是其所有固有局限的根源，而 Attention 正是针对这些局限的直接回应。

6. 小结 (Summary)

RNN 通过隐藏状态 $h_{t} = \tanh (W_{h h} h_{t - 1} + W_{x h} x_{t} + b_{h})$ 实现序列建模，但 BPTT 的连乘梯度路径导致梯度消失/爆炸。
LSTM 引入细胞状态 $C_{t}$ 和三个门（遗忘、输入、输出），通过加法梯度路径使梯度能无损传播到远处，有效缓解了梯度消失。
GRU 是 LSTM 的简化变体，将门减为 2 个（更新门、重置门），合并了细胞状态和隐藏状态，参数量减少约 25%。
编码器-解码器架构将变长序列压缩到固定维度的上下文向量，存在严重的信息瓶颈。
RNN 的局限（串行计算、梯度消失、信息瓶颈）是通往 Attention 机制的直接动机——Attention 将在 Transformer 架构中彻底替代循环结构。

进一步阅读 (Further Reading):

Hochreiter & Schmidhuber (1997). "Long Short-Term Memory." Neural Computation. — LSTM 原始论文
Cho et al. (2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation." — GRU 与 Seq2Seq
Sutskever, Vinyals & Le (2014). "Sequence to Sequence Learning with Neural Networks." — Seq2Seq 经典
Bengio, Simard & Frasconi (1994). "Learning long-term dependencies with gradient descent is difficult." — 梯度消失的理论分析
Olah (2015). "Understanding LSTM Networks." — 可视化 LSTM 的优秀博文

参考文献 (References)

Hochreiter, S. & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
Cho, K. et al. (2014). Learning phrase representations using RNN encoder-decoder. EMNLP.
Sutskever, I., Vinyals, O. & Le, Q. V. (2014). Sequence to sequence learning with neural networks. NeurIPS.

第5章 循环神经网络与序列模型 ​

Chapter 5: Recurrent Neural Networks and Sequence Models ​

目录 (Table of Contents) ​

1. RNN 循环计算图 (RNN Recurrent Computation Graph) ​

1.1 问题定义：为什么需要"循环"？ ​

1.2 RNN 基本公式 ​

1.3 展开的计算图 (Unrolled Graph) ​

1.4 随时间反向传播 (BPTT) ​

损失函数 ​

对 Why 的梯度 ​

对 Whh 的梯度（关键） ​

1.5 梯度消失与梯度爆炸 ​

2. LSTM (Long Short-Term Memory) ​

2.1 核心思想：信息高速公路 ​

2.2 遗忘门 (Forget Gate) ​

2.3 输入门 (Input Gate) ​

2.4 细胞状态更新 (Cell State Update) ​

2.5 输出门 (Output Gate) ​

2.6 为什么 LSTM 能缓解梯度消失？ ​

2.7 完整 LSTM 前向传播总结 ​

3. GRU (Gated Recurrent Unit) ​

3.1 GRU 的设计动机 ​

3.2 GRU 公式推导 ​

3.3 LSTM vs GRU ​

4. 编码器-解码器架构 (Encoder-Decoder Architecture) ​

4.1 固定维度的上下文向量 ​

4.2 编码器-解码器的信息瓶颈 ​

5. 为什么需要 Attention？ ​

5.1 从瓶颈到查阅 ​

5.2 Attention 的直觉 ​

6. 小结 (Summary) ​

参考文献 (References) ​