第1章线性模型 — 机器学习的基石

Chapter 1: Linear Models — The Foundation of Machine Learning

线性模型是机器学习的起点。 从最简单的线性回归（regression /rɪˈɡreʃən/）到逻辑回归，再到支撑向量机，线性模型构成了理解和构建更复杂模型的基础。本章的核（kernel /ˈkɜːrnl/）心是理解 参数（parameter /pəˈræmɪtər/） (Parameters)、损失 (Loss)、梯度（gradient /ˈɡreɪdiənt/） (Gradient) 这三个概念——它们将贯穿本书所有后续模型。
Linear models are where Machine Learning begins. From the simplest linear regression to logistic regression and beyond, linear models form the foundation for understanding and building more complex models. The core of this chapter is understanding three concepts — Parameters, Loss, Gradient — that will appear in every single model throughout this book.

依赖库 (Dependencies): numpy, scipy, matplotlib, scikit-learn

Code companion: code/linear_models.py

写在前面：本章有两条路 (Two Reading Paths)

这一章既要照顾零基础读者，也要照顾想吃透数学的读者，所以我们把它拆成两条路。你不需要先学完高数、线代、概率才能开始——按下面这条入门线走就行。

路径	适合谁	怎么读
🐤 入门线	没系统学过高数 / 线代 / 概率	只读正文 + 🌱「先有个感觉」小盒 + 代码 + 小结。所有带 📐 的小节、所有「严格推导」折叠块，看不懂直接跳过，不影响你学会用模型。
🦅 深入线	想搞懂"为什么"，能啃公式	在入门线基础上，展开所有 🔍 演算盒和 📐 推导，跟着每一步算一遍。

📐 标记的含义：凡是带 📐 的小节，属于"可选深水区"——里面有矩阵求导、海森矩阵、似然这类需要数学背景的内容。跳过它们，你仍然能完整理解线性回归/逻辑回归在干什么、怎么用。 等以后补完卷二数学基础，再回头展开也不迟。

🧰 迷你数学补给站 (Just-Enough Math)

本章会冒出几个数学词。你不用专门去学一遍，下面这张"够用就好"的速查表能让你读下去；想深入再去看《卷2 数学基础》。

词	一句话够用版	生活类比
导数 / 斜率	函数在某点"上升还是下降、有多陡"	山坡的倾斜程度
偏导数	多个变量时，"只动其中一个、其它不动"的斜率	只拧一个旋钮，看声音怎么变
梯度 (gradient)	把所有偏导打包成一个箭头，指向上升最快的方向	站在山坡上，"最陡的上山方向"
向量 $x$	一串数排成一列，代表一个样本的多个特征	一个人的 [身高, 体重, 年龄]
点积 $w^{T} x$	对应位置相乘再相加，得到一个"加权总分"	各科成绩 × 权重，算总评分
$\arg min$	"让后面这个东西最小的那个取值"	哪家店最便宜——要的是"哪家"，不是"多少钱"
似然 (likelihood)	"用这套参数，看到手上这批数据的可能性有多大"	这副牌型下，对手这么出牌的概率
矩阵 $X$	把很多样本（向量）摞成一张表，一行一个样本	一张 Excel：行是人，列是特征

读到对应概念时回来查一眼即可。下面正式开始。

目录 (Table of Contents)

线性回归 (Linear Regression)
- 1.1 问题定义
- 1.2 MSE 损失函数
- 1.3 最小二乘与正规方程 📐
- 1.4 梯度下降解法 📐
- 1.5 实现与可视化
逻辑回归 (Logistic Regression)
正则化（regularization /ˌreɡjələraɪˈzeɪʃən/） (Regularization)
三个核心概念 (Three Core Concepts)
小结 (Summary)

1. 线性回归 (Linear Regression)

1.1 问题定义 (Problem Formulation)

线性回归是监督学习中最基本的模型。给定 $n$ 个样本 ${(x_{i}, y_{i})}_{i = 1}^{n}$ ，其中 $x_{i} \in R^{d}$ 是 $d$ 维特征向量， $y_{i} \in R$ 是连续目标值，我们希望找到 $x$ 与 $y$ 的线性关系：

时间线:
1805: Legendre 在《Nouvelles méthodes pour la détermination des orbites des comètes》中首次发表最小二乘法
1809: Gauss 在《Theoria motus corporum coelestium》中独立提出最小二乘
1958: Cox 提出逻辑回归（Logistic Regression）,

y = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{d} x_{d} + b + ϵ

用向量形式简洁表示为：

y = w^{T} x + b + ϵ

其中 $w \in R^{d}$ 是权重向量， $b \in R$ 是偏置， $ϵ$ 是噪声项（通常假设为高斯分布 $ϵ \sim N (0, σ^{2})$ ）。

为了符号简洁，我们通常将偏置 $b$ 合并进权重向量：令 $\tilde{x} = [1, x_{1}, x_{2}, \dots, x_{d}]^{T} \in R^{d + 1}$ ， $\tilde{w} = [b, w_{1}, \dots, w_{d}]^{T}$ ，则：

y = {\tilde{w}}^{T} \tilde{x} + ϵ

对于全部 $n$ 个样本，写作矩阵形式：

y = X w + ϵ

其中 $X \in R^{n \times (d + 1)}$ 是设计矩阵（每行一个样本，第一列全1）， $y \in R^{n}$ ， $ϵ \in R^{n}$ 。

1.2 MSE 损失函数 (MSE Loss Function)

我们的目标： 找到最优的 $w$ ，使得预测值 $\hat{y} = X w$ 尽可能接近真实值 $y$ 。

最常用的损失函数：均方误差（MSE, Mean Squared Error）：

L (w) = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} = \frac{1}{n} ∥ y - X w ∥_{2}^{2}

为什么用 MSE？ 最小化 MSE 等价于 极大似然估计（MLE） 在噪声服从高斯分布下的解。详细推导见《AI 数学基础》第5章。

1.3 最小二乘与正规方程 (OLS and Normal Equations) 📐

🌱 先有个感觉（🐤 入门线只看这一段就够）
我们想给一堆点画一条"最贴合"的直线。"最贴合"= 上一节的 MSE 误差最小。
神奇的是：对于直线这种简单模型，不用一步步试，有一个公式能一口气直接算出最优答案——就像解方程 $2 x = 6$ 直接得 $x = 3$ ，不用慢慢猜。这个公式叫正规方程 (Normal Equation)：
$w^{*} = (X^{T} X)^{- 1} X^{T} y$
你现在不需要看懂它怎么来的，只需要记住一件事：线性回归有"标准答案公式"，代入数据就能算出最佳直线。 下面的推导是讲"这个公式凭什么成立"，属于 📐 深水区，看不懂可以直接跳到 §1.4。想看具体数字怎么代进去算的，展开下面的 🔍 演算盒（那个反而很友好）。

推导：从 MSE 到正规方程 🦅

令损失函数为（为了求导方便，有时也写作 $\frac{1}{2 n}$ 或 $\frac{1}{2}$ ，不影响最优解位置）：

L (w) = \frac{1}{n} (y - X w)^{T} (y - X w)

第1步：展开损失函数

\begin{aligned} L (w) & = \frac{1}{n} (y^{T} y - 2 w^{T} X^{T} y + w^{T} X^{T} X w) \end{aligned}

第2步：对 $w$ 求梯度，设为0

回忆矩阵微积分公式：

$\frac{\partial}{\partial w} (a^{T} w) = a$
$\frac{\partial}{\partial w} (w^{T} A w) = (A + A^{T}) w$ ，若 $A$ 对称则 $= 2 A w$

所以：

\frac{\partial L}{\partial w} = \frac{1}{n} (- 2 X^{T} y + 2 X^{T} X w) = 0

第3步：令梯度为0，求解 $w$

- 2 X^{T} y + 2 X^{T} X w = 0

X^{T} X w = X^{T} y

这就是正规方程 (Normal Equations)。当 $X^{T} X$ 可逆时：

w^{*} = (X^{T} X)^{- 1} X^{T} y

这就是最小二乘法 (Ordinary Least Squares, OLS) 的闭式解。

几何解释： $\hat{y} = X w^{*} = X (X^{T} X)^{- 1} X^{T} y$ 是 $y$ 在 $X$ 的列空间上的正交投影。 $P = X (X^{T} X)^{- 1} X^{T}$ 被称为投影矩阵。

第4步：验证最优性 🦅 （可跳过的深水区：解释"为什么这个解是最低点而非最高点"）

$L (w)$ 的海森矩阵为 $\frac{2}{n} X^{T} X$ ，当 $X$ 列满秩时， $X^{T} X$ 是正定矩阵 → 损失函数是凸函数 → $w^{*}$ 是全局最小值。

🐤 入门线翻译：MSE 这个误差函数的形状像一个碗（只有一个底），所以上面算出的那个点保证是"碗底"——也就是误差最小处，不可能是别的奇怪位置。"海森矩阵正定"就是数学上说"它是个朝上的碗"的方式。

何时使用闭式解 vs 梯度下降？

方法	优点	缺点
闭式解 (Normal Equations)	一步得到精确解	$O (n d^{2} + d^{3})$ ， $d$ 大时不可行
梯度下降 (Gradient Descent)	可扩展到大 $d$ ，通用	需要调学习率，迭代收敛

经验法则： $d < 10^{4}$ 时闭式解 OK， $d > 10^{4}$ 或 $n$ 极大时用梯度下降。

🔍 完整演算：正规方程手算 — 4×2 数据集

📐 公式

正规方程（Normal Equation）给出线性回归的闭式解：

w^{*} = (X^{T} X)^{- 1} X^{T} y

📖 参数含义

符号	名称	含义
$X$	设计矩阵	$n \times (d + 1)$ 矩阵，第 1 列全 1（偏置项），后续每列一个特征
$y$	目标向量	$n$ 维列向量，每个样本的真实值
$w$	权重向量	$(d + 1)$ 维列向量，首元素为偏置 $b$ ，后续为各特征权重
$X^{T} X$	格拉姆矩阵	$(d + 1) \times (d + 1)$ 对称矩阵，各特征间的内积
$(X^{T} X)^{- 1}$	格拉姆逆矩阵	当 $X$ 列满秩时存在，保证解的唯一性

📝 公式来源

从 MSE 损失 $L (w) = \frac{1}{n} (y - X w)^{T} (y - X w)$ 出发，对 $w$ 求梯度：

\frac{\partial L}{\partial w} = - \frac{2}{n} X^{T} (y - X w)

令梯度为零（最优解的必要条件）：

- \frac{2}{n} X^{T} (y - X w) = 0 ⟹ X^{T} X w = X^{T} y

当 $X^{T} X$ 可逆时，两边左乘 $(X^{T} X)^{- 1}$ 即得 $w^{*} = (X^{T} X)^{- 1} X^{T} y$ 。

✏️ 手算演示

数据集： 4 个样本，2 个特征

x^{(1)} = (1, 2), y_{1} = 5 x^{(2)} = (2, 1), y_{2} = 6 x^{(3)} = (3, 4), y_{3} = 11 x^{(4)} = (4, 3), y_{4} = 12

（真实生成关系： $y = 1 + 2 x_{1} + 1 x_{2}$ ）

Step 1: 构建设计矩阵

在原始特征前插入一列全 1（对应偏置项 $b$ ）：

X = {[\begin{matrix} 1 & 1 & 2 \\ 1 & 2 & 1 \\ 1 & 3 & 4 \\ 1 & 4 & 3 \end{matrix}]}_{4 \times 3}, y = {[\begin{matrix} 5 \\ 6 \\ 11 \\ 12 \end{matrix}]}_{4 \times 1}

Step 2: 计算 $X^{T} X$

X^{T} = [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 2 & 1 & 4 & 3 \end{matrix}]

X^{T} X = [\begin{matrix} 4 & 10 & 10 \\ 10 & 30 & 28 \\ 10 & 28 & 30 \end{matrix}]

逐元素验算：

$(X^{T} X)_{00} = 1 + 1 + 1 + 1 = 4$
$(X^{T} X)_{01} = 1 + 2 + 3 + 4 = 10$
$(X^{T} X)_{02} = 2 + 1 + 4 + 3 = 10$
$(X^{T} X)_{11} = 1 + 4 + 9 + 16 = 30$
$(X^{T} X)_{12} = 2 + 2 + 12 + 12 = 28$
$(X^{T} X)_{22} = 4 + 1 + 16 + 9 = 30$

Step 3: 计算 $X^{T} y$

X^{T} y = [\begin{matrix} 5 + 6 + 11 + 12 \\ 1 \cdot 5 + 2 \cdot 6 + 3 \cdot 11 + 4 \cdot 12 \\ 2 \cdot 5 + 1 \cdot 6 + 4 \cdot 11 + 3 \cdot 12 \end{matrix}] = [\begin{matrix} 34 \\ 98 \\ 96 \end{matrix}]

Step 4: 求 $(X^{T} X)^{- 1}$

先计算 $det (X^{T} X)$ ：

\begin{aligned} det (X^{T} X) & = 4 \cdot det [\begin{array}{c} 30 & 28 \\ 28 & 30 \end{array}] - 10 \cdot det [\begin{array}{c} 10 & 28 \\ 10 & 30 \end{array}] + 10 \cdot det [\begin{array}{c} 10 & 30 \\ 10 & 28 \end{array}] \\ = 4 (30 \cdot 30 - 28 \cdot 28) - 10 (10 \cdot 30 - 28 \cdot 10) + 10 (10 \cdot 28 - 30 \cdot 10) \\ = 4 (900 - 784) - 10 (300 - 280) + 10 (280 - 300) \\ = 4 \cdot 116 - 10 \cdot 20 + 10 \cdot (- 20) \\ = 464 - 200 - 200 = 64 \neq 0 ✓ \end{aligned}

行列式非零，矩阵可逆。伴随矩阵法求逆：

(X^{T} X)^{- 1} = \frac{1}{64} [\begin{matrix} 116 & - 20 & - 20 \\ - 20 & 20 & - 12 \\ - 20 & - 12 & 20 \end{matrix}]

Step 5: 计算最优权重 $w^{*}$

\begin{aligned} w^{*} & = (X^{T} X)^{- 1} X^{T} y \\ = \frac{1}{64} [\begin{array}{c} 116 & - 20 & - 20 \\ - 20 & 20 & - 12 \\ - 20 & - 12 & 20 \end{array}] [\begin{array}{c} 34 \\ 98 \\ 96 \end{array}] \\ = \frac{1}{64} [\begin{array}{c} 116 \cdot 34 - 20 \cdot 98 - 20 \cdot 96 \\ - 20 \cdot 34 + 20 \cdot 98 - 12 \cdot 96 \\ - 20 \cdot 34 - 12 \cdot 98 + 20 \cdot 96 \end{array}] \\ = \frac{1}{64} [\begin{array}{c} 3944 - 1960 - 1920 \\ - 680 + 1960 - 1152 \\ - 680 - 1176 + 1920 \end{array}] \\ = \frac{1}{64} [\begin{array}{c} 64 \\ 128 \\ 64 \end{array}] = [\begin{array}{c} 1 \\ 2 \\ 1 \end{array}] \end{aligned}

因此：

b^{*} = 1, w_{1}^{*} = 2, w_{2}^{*} = 1

恢复出生成数据的真实参数 $y = 1 + 2 x_{1} + 1 x_{2}$ ✓

🌍 实际意义

何时用闭式解： 特征数 $d < 10^{4}$ 且 $d$ 远小于样本数 $n$ 时，正规方程一步到位，无需调参
何时用梯度下降： $d > 10^{4}$ 或 $n$ 极大时， $O (d^{3})$ 的矩阵求逆代价过高，迭代法更优
共线性风险： 若 $X$ 的列近似线性相关， $X^{T} X$ 接近奇异，求逆数值不稳定——这是实际数据中更常见的情况，此时正则化是标准解法

1.4 梯度下降解法 (Gradient Descent Solution) 📐

🌱 先有个感觉（🐤 入门线必读）
上一节的"标准答案公式"很好，但它有个毛病：当特征非常多（比如几百万个）时，那个公式算起来会慢到算不动（要对一个超大矩阵求逆）。深度学习里全靠另一招——梯度下降。
想象你被蒙住眼睛站在山坡上，要走到山谷最低处。你看不见全局，但能用脚感觉到哪个方向最陡，于是你朝最陡的下坡方向迈一小步；到了新位置再感觉一次、再迈一步……反复下去，自然就走到谷底了。
"山的高度" = 损失（误差），越低越好；
"最陡的方向" = 梯度；
"一小步的大小" = 学习率 $η$ （步子太大会迈过头，太小会走很久）。
就这么简单。下面的公式只是把"朝最陡下坡方向迈一小步"这句话写成数学。

梯度下降是迭代优化中最常用的方法。其核心思想很简单：

沿着损失函数梯度的反方向走，就能下降到局部（这里是全局）最低点。

算法步骤

初始化 $w^{(0)}$
对 $t = 0, 1, 2, \dots$ 直到收敛： $w^{(t + 1)} = w^{(t)} - η \cdot \nabla L (w^{(t)})$ 其中 $η$ 是学习率 (learning rate)。

线性回归的梯度

\nabla L (w) = \frac{2}{n} X^{T} (X w - y)

物理意义： 梯度的每个分量告诉我们在对应方向上的调整幅度——残差 $(X w - y)$ 越大，调整步长越大。

三种变体

批量梯度下降 (Batch GD): 每次用所有 $n$ 个样本计算梯度 → 准确但慢
随机（stochastic /stəˈkæstɪk/）梯度下降 (SGD): 每次用 1 个样本 → 快但波动大
小批量梯度下降 (Mini-batch GD): 每次用 $m$ 个样本（实用中最常见）

🔍 完整演算：梯度下降手算 — 3 步迭代

📐 公式

梯度下降更新规则：

w^{(t + 1)} = w^{(t)} - η \cdot \nabla L (w^{(t)})

线性回归的梯度：

\nabla L (w) = \frac{2}{n} X^{T} (X w - y)

📖 参数含义

符号	名称	含义
$w^{(t)}$	第 $t$ 步的权重	包含偏置 $b = w_{0}$ 在内的 $(d + 1)$ 维向量
$η$	学习率	控制每步更新幅度，本例取 $η = 0.01$
$\nabla L$	梯度向量	损失函数在 $w^{(t)}$ 处的梯度，指向上升最快的方向
$X w - y$	残差向量	每个样本的预测误差
$L$	MSE 损失	$\frac{1}{n} \| y - X w \|_{2}^{2}$

📝 公式来源

梯度下降来源于一阶泰勒展开：在 $w^{(t)}$ 附近， $L (w) \approx L (w^{(t)}) + \nabla L (w^{(t)})^{T} (w - w^{(t)})$ 。要使损失下降最快，应沿负梯度方向移动，步长受 $η$ 控制。

线性回归的梯度 $\nabla L = \frac{2}{n} X^{T} (X w - y)$ 来自 MSE 对 $w$ 的求导，与正规方程推导中的中间结果一致。

✏️ 手算演示

使用与正规方程相同的 4×2 数据集：

X = [\begin{matrix} 1 & 1 & 2 \\ 1 & 2 & 1 \\ 1 & 3 & 4 \\ 1 & 4 & 3 \end{matrix}], y = [\begin{matrix} 5 \\ 6 \\ 11 \\ 12 \end{matrix}], w^{(0)} = [\begin{matrix} 0 \\ 0 \\ 0 \end{matrix}], η = 0.01

Iteration 1

预测： $X w^{(0)} = [0, 0, 0, 0]^{T}$

残差： $r^{(0)} = X w^{(0)} - y = [- 5, - 6, - 11, - 12]^{T}$

梯度： $\nabla L^{(0)} = \frac{2}{4} X^{T} r^{(0)}$

\nabla L^{(0)} = \frac{1}{2} [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 2 & 1 & 4 & 3 \end{matrix}] [\begin{matrix} - 5 \\ - 6 \\ - 11 \\ - 12 \end{matrix}] = \frac{1}{2} [\begin{matrix} - 34 \\ - 98 \\ - 96 \end{matrix}] = [\begin{matrix} - 17 \\ - 49 \\ - 48 \end{matrix}]

更新： $w^{(1)} = w^{(0)} - η \nabla L^{(0)}$

w^{(1)} = [\begin{matrix} 0 \\ 0 \\ 0 \end{matrix}] - 0.01 [\begin{matrix} - 17 \\ - 49 \\ - 48 \end{matrix}] = [\begin{matrix} 0.17 \\ 0.49 \\ 0.48 \end{matrix}]

MSE： $L^{(0)} = \frac{1}{4} (25 + 36 + 121 + 144) = 81.5$ $\to L^{(1)} = 39.23$ （见下一步）

Iteration 2

预测：

X w^{(1)} = [\begin{matrix} 0.17 + 0.49 \cdot 1 + 0.48 \cdot 2 \\ 0.17 + 0.49 \cdot 2 + 0.48 \cdot 1 \\ 0.17 + 0.49 \cdot 3 + 0.48 \cdot 4 \\ 0.17 + 0.49 \cdot 4 + 0.48 \cdot 3 \end{matrix}] = [\begin{matrix} 1.62 \\ 1.63 \\ 3.56 \\ 3.57 \end{matrix}]

残差： $r^{(1)} = [- 3.38, - 4.37, - 7.44, - 8.43]^{T}$

MSE： $L^{(1)} = \frac{1}{4} ({3.38}^{2} + {4.37}^{2} + {7.44}^{2} + {8.43}^{2}) \approx 39.23$ （较 81.5 下降 52%）

梯度：

\nabla L^{(1)} = \frac{1}{2} [\begin{matrix} - 3.38 - 4.37 - 7.44 - 8.43 \\ - 3.38 \cdot 1 - 4.37 \cdot 2 - 7.44 \cdot 3 - 8.43 \cdot 4 \\ - 3.38 \cdot 2 - 4.37 \cdot 1 - 7.44 \cdot 4 - 8.43 \cdot 3 \end{matrix}] = \frac{1}{2} [\begin{matrix} - 23.62 \\ - 68.16 \\ - 66.18 \end{matrix}] = [\begin{matrix} - 11.81 \\ - 34.08 \\ - 33.09 \end{matrix}]

更新：

w^{(2)} = [\begin{matrix} 0.17 \\ 0.49 \\ 0.48 \end{matrix}] - 0.01 [\begin{matrix} - 11.81 \\ - 34.08 \\ - 33.09 \end{matrix}] = [\begin{matrix} 0.29 \\ 0.83 \\ 0.81 \end{matrix}]

Iteration 3

预测：

X w^{(2)} = [\begin{matrix} 0.29 + 0.83 \cdot 1 + 0.81 \cdot 2 \\ 0.29 + 0.83 \cdot 2 + 0.81 \cdot 1 \\ 0.29 + 0.83 \cdot 3 + 0.81 \cdot 4 \\ 0.29 + 0.83 \cdot 4 + 0.81 \cdot 3 \end{matrix}] = [\begin{matrix} 2.74 \\ 2.76 \\ 6.02 \\ 6.04 \end{matrix}]

残差： $r^{(2)} = [- 2.26, - 3.24, - 4.98, - 5.96]^{T}$

MSE： $L^{(2)} \approx \frac{1}{4} ({2.26}^{2} + {3.24}^{2} + {4.98}^{2} + {5.96}^{2}) \approx 18.96$ （较 81.5 下降 77%）

梯度：

\nabla L^{(2)} = \frac{1}{2} [\begin{matrix} - 2.26 - 3.24 - 4.98 - 5.96 \\ - 2.26 \cdot 1 - 3.24 \cdot 2 - 4.98 \cdot 3 - 5.96 \cdot 4 \\ - 2.26 \cdot 2 - 3.24 \cdot 1 - 4.98 \cdot 4 - 5.96 \cdot 3 \end{matrix}] = \frac{1}{2} [\begin{matrix} - 16.44 \\ - 47.50 \\ - 45.54 \end{matrix}] = [\begin{matrix} - 8.22 \\ - 23.75 \\ - 22.77 \end{matrix}]

更新：

w^{(3)} = [\begin{matrix} 0.29 \\ 0.83 \\ 0.81 \end{matrix}] - 0.01 [\begin{matrix} - 8.22 \\ - 23.75 \\ - 22.77 \end{matrix}] = [\begin{matrix} 0.37 \\ 1.07 \\ 1.04 \end{matrix}]

收敛进度： $w^{(3)} = [0.37, 1.07, 1.04]^{T}$ ，距真实值 $[1, 2, 1]^{T}$ 还有差距，但 MSE 已从 81.5 降至约 19。继续迭代会渐进收敛。

🌍 实际意义

为什么 GD 比正规方程更可扩展： 每次迭代只需 $O (n d)$ 计算（矩阵乘法），而正规方程需要 $O (n d^{2} + d^{3})$ 。当 $d$ 很大时（如深度学习 $d > 10^{7}$ ），正规方程完全不可行，GD 是唯一选择
学习率是关键： $η$ 太小收敛慢，太大可能发散。实践中常用学习率调度（learning rate schedule）或自适应方法（Adam）
三种变体： Batch GD（准确但慢）、SGD（快但震荡）、Mini-batch（折中，最常用）
本例中： 3 步后 MSE 下降 77%，说明梯度下降在前几步效率最高，后期接近最优点时收敛变慢（梯度变小）

1.5 实现与可视化 (Implementation & Visualization)

请运行 code/linear_models.py 中的 demo_linear_regression() 函数，查看：

损失下降曲线 — 随着迭代次数增加，MSE 单调递减
拟合结果 — 回归线穿过数据点云
参数轨迹等高图 — 参数 $(w, b)$ 在损失曲面上的优化路径
闭式解 vs GD 比较 — 两者最终收敛到相同位置

2. 逻辑回归 (Logistic Regression)

2.1 从线性回归到分类 (From Linear Regression to Classification)

线性回归预测连续值。但如果我们想预测类别（如 "是猫/不是猫"、"良性/恶性"）怎么办？

一个朴素的想法：对线性输出加一个阈值：

y = {\begin{cases} 1 & if w^{T} x + b > 0 \\ 0 & otherwise \end{cases}

但这样做的问题是：

不可导 → 无法用梯度下降优化
对远离决策边界的数据过于"自信"
对极端值敏感

逻辑回归 (Logistic Regression) 解决这个问题——它名为"回归"，实为分类算法。

2.2 Sigmoid 函数 (Sigmoid Function)

逻辑回归的核心是 Sigmoid 函数（也称 Logistic 函数）：

σ (z) = \frac{1}{1 + e^{- z}}

关键性质：

性质	说明
输出范围	$σ (z) \in (0, 1)$
对称性	$σ (- z) = 1 - σ (z)$
单调性	严格单调递增
导数	$σ^{'} (z) = σ (z) (1 - σ (z))$ — 这个性质使梯度计算非常简洁
概率解释	输出值可以解释为 $P(y=1

Sigmoid 的导数推导：

\begin{aligned} σ^{'} (z) & = \frac{d}{d z} (\frac{1}{1 + e^{- z}}) \\ = \frac{e^{- z}}{(1 + e^{- z})^{2}} \\ = \frac{1}{1 + e^{- z}} \cdot \frac{e^{- z}}{1 + e^{- z}} \\ = σ (z) (1 - σ (z)) \end{aligned}

这个优雅的导数形式使得后续梯度计算变得非常简单。

2.3 似然与交叉熵损失 (Likelihood & Cross-Entropy Loss) 📐

🌱 先有个感觉（🐤 入门线必读，公式可跳过）
做分类时，模型对每个样本输出一个概率，比如"这是猫的概率 80%"。我们需要一把尺子，衡量"模型猜得有多准"，好让它改进。这把尺子叫交叉熵 (Cross-Entropy)，规则非常符合直觉：
真实答案是猫，模型说"90% 是猫" → 惩罚很小（猜对了，且很自信）。
真实答案是猫，模型说"10% 是猫" → 惩罚巨大（错得离谱还很自信，狠狠扣分）。
也就是说：模型对正确答案给的概率越高，损失越小；给的概率越低（尤其错得自信），损失越大。 训练就是不断调参数，让这个总惩罚变小。
下面的"似然""负对数"是在严格地推导出这把尺子的公式，属于 📐 深水区。入门线只要记住"交叉熵 = 衡量分类猜得准不准的尺子，猜错得越自信罚得越狠"即可，可直接跳到 §2.4。

模型定义 🦅

逻辑回归模型假设：

P (y = 1 | x; w) = σ (w^{T} x + b)

P (y = 0 | x; w) = 1 - σ (w^{T} x + b)

统一写成：

P (y | x; w) = σ (w^{T} x)^{y} \cdot (1 - σ (w^{T} x))^{1 - y}

其中 $y \in {0, 1}$ 。

从似然到损失函数

对于 $n$ 个独立样本，似然函数 (Likelihood Function) 为：

L (w) = \prod_{i = 1}^{n} P (y^{(i)} | x^{(i)}; w) = \prod_{i = 1}^{n} σ (w^{T} x^{(i)})^{y^{(i)}} (1 - σ (w^{T} x^{(i)}))^{1 - y^{(i)}}

取负对数（最大化似然 = 最小化负对数似然）：

\begin{aligned} - \log L (w) & = - \sum_{i = 1}^{n} [y^{(i)} \log σ (w^{T} x^{(i)}) + (1 - y^{(i)}) \log (1 - σ (w^{T} x^{(i)}))] \end{aligned}

这就是交叉熵损失 (Cross-Entropy Loss)：

L_{CE} (w) = - \frac{1}{n} \sum_{i = 1}^{n} [y^{(i)} \log {\hat{y}}^{(i)} + (1 - y^{(i)}) \log (1 - {\hat{y}}^{(i)})]

其中 ${\hat{y}}^{(i)} = σ (w^{T} x^{(i)})$ 。

交叉熵 vs MSE for 分类： 交叉熵在错误预测时产生更大的梯度（因为 $\log$ 在接近0时趋向 $- \infty$ ），训练更高效。MSE + Sigmoid 会在预测极端错误时梯度趋近0（sigmoid 饱和区），导致学习停滞。

梯度推导

令 $z_{i} = w^{T} x^{(i)}$ ， ${\hat{y}}_{i} = σ (z_{i})$ 。

对单个样本的损失 $l_{i} = - [y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})]$ 求梯度：

\begin{aligned} \frac{\partial l_{i}}{\partial w} & = - [y_{i} \frac{1}{{\hat{y}}_{i}} \cdot {\hat{y}}_{i} (1 - {\hat{y}}_{i}) \cdot x_{i} + (1 - y_{i}) \frac{1}{1 - {\hat{y}}_{i}} \cdot (- {\hat{y}}_{i} (1 - {\hat{y}}_{i})) \cdot x_{i}] \\ = - [y_{i} (1 - {\hat{y}}_{i}) x_{i} - (1 - y_{i}) {\hat{y}}_{i} x_{i}] \\ = - [y_{i} x_{i} - y_{i} {\hat{y}}_{i} x_{i} - {\hat{y}}_{i} x_{i} + y_{i} {\hat{y}}_{i} x_{i}] \\ = - (y_{i} - {\hat{y}}_{i}) x_{i} \end{aligned}

惊人地简洁！整体梯度为：

\nabla L_{CE} (w) = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{y}}_{i} - y_{i}) x_{i}

这与线性回归的梯度形式完全一致！ 唯一的区别是 $\hat{y}$ 的计算方式不同（线性回归： $\hat{y} = w^{T} x$ ；逻辑回归： $\hat{y} = σ (w^{T} x)$ ）。

🔍 完整演算：逻辑回归梯度手算 — 单样本链式法则

📐 公式

逻辑回归的单样本交叉熵损失及其梯度：

l_{i} = - [y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})]

\frac{\partial l_{i}}{\partial w} = ({\hat{y}}_{i} - y_{i}) x_{i}

其中 ${\hat{y}}_{i} = σ (z_{i}) = σ (w^{T} x_{i} + b)$ 。

📖 参数含义

符号	名称	含义
$x_{i}$	输入特征	$d$ 维特征向量，本例 $d = 2$
$y_{i}$	真实标签	二分类： $y_{i} \in {0, 1}$
${\hat{y}}_{i}$	预测概率	${\hat{y}}_{i} = P (y = 1 ∣ x_{i}) \in (0, 1)$
$z_{i}$	logit	线性输出 $z_{i} = w^{T} x_{i} + b$
$σ (z)$	Sigmoid 函数	$σ (z) = 1 / (1 + e^{- z})$ ，将线性值映射为概率
$l_{i}$	交叉熵损失	衡量预测概率分布与真实标签的差异

📝 公式来源

利用链式法则和 Sigmoid 的导数性质 $σ^{'} (z) = σ (z) (1 - σ (z))$ ：

\begin{aligned} \frac{\partial l_{i}}{\partial w} & = - \frac{\partial}{\partial w} [y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i}))] \\ = - [y_{i} \frac{1}{σ (z_{i})} σ^{'} (z_{i}) x_{i} + (1 - y_{i}) \frac{1}{1 - σ (z_{i})} (- σ^{'} (z_{i})) x_{i}] \\ = - [y_{i} (1 - σ (z_{i})) x_{i} - (1 - y_{i}) σ (z_{i}) x_{i}] \\ = - (y_{i} - σ (z_{i})) x_{i} \\ = ({\hat{y}}_{i} - y_{i}) x_{i} \end{aligned}

其中第二步使用了 $σ^{'} (z) = σ (z) (1 - σ (z))$ 。

✏️ 手算演示

输入： 单个样本 $x = [2, - 1]^{T}$ ，真实标签 $y = 1$

初始参数： $w = [0.5, - 0.3]^{T}$ ，偏置 $b = 0$

学习率： $η = 0.1$

Step 1: 计算 logit $z$

z = w^{T} x + b = 0.5 \cdot 2 + (- 0.3) \cdot (- 1) + 0 = 1.0 + 0.3 = 1.3

Step 2: 通过 Sigmoid 得到预测概率

\hat{y} = σ (z) = \frac{1}{1 + e^{- z}} = \frac{1}{1 + e^{- 1.3}}

计算 $e^{- 1.3}$ ：

e^{- 1.3} = \frac{1}{e^{1.3}} \approx \frac{1}{3.669} \approx 0.2725

因此：

\hat{y} = \frac{1}{1 + 0.2725} \approx 0.7858

解读：模型认为该样本属于类别 1 的概率约为 78.6%。

Step 3: 计算交叉熵损失

\begin{aligned} l & = - [y \log \hat{y} + (1 - y) \log (1 - \hat{y})] \\ = - [1 \cdot \log (0.7858) + 0 \cdot \log (0.2142)] \\ = - \log (0.7858) \approx 0.241 \end{aligned}

Step 4: 计算梯度

\frac{\partial l}{\partial w} = (\hat{y} - y) x = (0.7858 - 1) [\begin{matrix} 2 \\ - 1 \end{matrix}] = - 0.2142 [\begin{matrix} 2 \\ - 1 \end{matrix}] = [\begin{matrix} - 0.4284 \\ 0.2142 \end{matrix}]

偏置的梯度：

\frac{\partial l}{\partial b} = \hat{y} - y = - 0.2142

Step 5: 更新参数

\begin{aligned} w_{new} & = w - η \frac{\partial l}{\partial w} = [\begin{array}{c} 0.5 \\ - 0.3 \end{array}] - 0.1 [\begin{array}{c} - 0.4284 \\ 0.2142 \end{array}] = [\begin{array}{c} 0.5428 \\ - 0.3214 \end{array}] \\ b_{new} & = b - η \frac{\partial l}{\partial b} = 0 - 0.1 \cdot (- 0.2142) = 0.0214 \end{aligned}

更新后参数： $w = [0.5428, - 0.3214]^{T}, b = 0.0214$

梯度方向解读： $w_{1}$ 需要增大（ $x_{1} = 2 > 0$ ， $y = 1$ ，增加 $w_{1}$ 使 $\hat{y}$ 更接近 1）， $w_{2}$ 需要减小（ $x_{2} = - 1 < 0$ ，减小 $w_{2}$ 也使 $\hat{y}$ 上升）。一次更新后损失从 0.241 下降。

🌍 实际意义

梯度形式简洁的根源： $\frac{\partial l}{\partial w} = (\hat{y} - y) x$ 与线性回归梯度 $\frac{2}{n} (\hat{y} - y) x$ 形式一致，差异仅在于 $\hat{y}$ 的计算方式。这意味着同一套优化代码只需更换最后的激活函数即可在回归与分类间切换
交叉熵 vs MSE： 如果对分类使用 MSE + Sigmoid，当预测极端错误时（如 $\hat{y} \approx 0$ 但 $y = 1$ ），Sigmoid 进入饱和区， $σ^{'} (z) \approx 0$ ，梯度趋近 0，学习停滞。交叉熵的对数项抵消了 Sigmoid 的导数，保证了梯度始终有效
链式法则的力量： 本演算展示了反向传播的核心思想——将复杂函数的导数分解为简单步骤的乘积，这正是所有深度学习自动微分的基石

2.4 决策边界 (Decision Boundary)

逻辑回归的决策边界是 $w^{T} x + b = 0$ 对应的超平面：

$σ (w^{T} x) > 0.5 ⟺ w^{T} x > 0$ → 预测 $y = 1$
$σ (w^{T} x) < 0.5 ⟺ w^{T} x < 0$ → 预测 $y = 0$
$σ (w^{T} x) = 0.5$ → 决策边界（分界线）

对于二维特征，决策边界是一条直线。扩展到高维就是超平面。

线性可分 vs 非线性： 逻辑回归的决策边界在特征空间中是线性的。但通过特征变换（如多项式特征），可以拟合非线性边界——这引出了"核方法"的思想。

2.5 实现与可视化 (Implementation & Visualization)

请运行 code/linear_models.py 中的 demo_logistic_regression() 函数，查看：

合成分类数据 — 两类数据点
决策边界 — 模型学到的分类线
Sigmoid 概率曲面 — 决策边界附近的概率变化
损失下降曲线 — 交叉熵随迭代单调递减
scikit-learn 比较 — 自实现与 sklearn 结果一致

3. 正则化 (Regularization)

3.1 过拟合与欠拟合 (Under-fitting vs Over-fitting)

状态	训练误差	测试误差	原因
欠拟合 (Under-fitting)	高	高	模型太简单，无法捕捉数据模式
恰好 (Just right)	低	低	模型复杂度与数据匹配
过拟合 (Over-fitting)	极低	高	模型过于复杂，学到了噪声

正则化 (Regularization) 是防止过拟合的核心技术。它的本质是：在损失函数中加入对模型复杂度的惩罚项。

3.2 L2 正则化 / Ridge (Ridge Regression)

Ridge 回归的损失函数：

L_{Ridge} (w) = \underset{数据拟合项}{\underset{⏟}{\frac{1}{n} ∥ y - X w ∥_{2}^{2}}} + λ \underset{正则化项}{\underset{⏟}{∥ w ∥_{2}^{2}}}

其中 $λ > 0$ 是正则化系数，控制惩罚力度。

正规方程修正

\frac{\partial L_{Ridge}}{\partial w} = - \frac{2}{n} X^{T} (y - X w) + 2 λ w = 0

w_{Ridge}^{*} = (X^{T} X + n λ I)^{- 1} X^{T} y

数值稳定性： $X^{T} X + n λ I$ 总是可逆的（即使 $X$ 不是列满秩），这保证了解的存在性。 $X^{T} X$ 本身可能奇异（特征数 > 样本数时），加上 $λ I$ 使其正定。

L2 正则化的效果

权重收缩： 所有权重都向0收缩，但不会精确为0
方差减小，偏差增加： 以少量偏差为代价大幅降低方差 → 整体测试误差降低
降低多重共线性影响： 使相关特征间的权重分配更稳定

3.3 L1 正则化 / Lasso (Lasso Regression)

Lasso 回归的损失函数：

L_{Lasso} (w) = \frac{1}{n} ∥ y - X w ∥_{2}^{2} + λ ∥ w ∥_{1}

其中 $∥ w ∥_{1} = \sum_{j = 1}^{d} | w_{j} |$ 。

L1 正则化的关键特性：稀疏性

Lasso 的一个重要特性是它能使部分权重精确为0，从而实现特征选择。

为什么 L1 产生稀疏解而 L2 不？ 这源于 L1 范数的几何形状——详见下节。

由于 L1 范数在 $w_{j} = 0$ 处不可导，优化通常使用坐标下降 (Coordinate Descent) 或近端梯度下降 (Proximal Gradient Descent)，而非普通梯度下降。

3.4 L1 vs L2 — 稀疏性的几何直觉 (Geometric Intuition for Sparsity)

🌱 先有个感觉（🐤 入门线必读）
L1 和 L2 都是给"权重太大"罚款，防止模型乱长。但它们罚的方式不同，导致一个有趣的区别：
L2 (Ridge)：把所有权重整体压小，但谁也不会被压到刚好 0——像给全班整体降温，人人都凉一点。
L1 (Lasso)：会把一些不重要的特征的权重直接压成 0，相当于"自动删掉没用的特征"——像裁员，直接砍掉贡献最小的人。
所以当你有几百个特征、怀疑大部分没用时，L1 能帮你自动做特征筛选（留下的非零权重就是它选中的重要特征）。这就是"稀疏性"的实际价值。下面用几何图形解释"为什么 L1 偏偏能压到 0"。

核心直觉：约束优化视角

正则化等价于在约束条件下最小化原始损失：

Lasso: $min \frac{1}{n} ∥ y - X w ∥_{2}^{2}$ s.t. $∥ w ∥_{1} \leq t$
Ridge: $min \frac{1}{n} ∥ y - X w ∥_{2}^{2}$ s.t. $∥ w ∥_{2}^{2} \leq t$

在二维 ( $w_{1}, w_{2}$ ) 空间中：

L2 约束区域是圆形
L1 约束区域是菱形（顶点在坐标轴上）

损失函数的等高线（椭圆）与约束区域的切点位置决定了最优解：

约束	形状	切点位置	特性
L2 (Ridge)	圆	大概率不在坐标轴上	权重收缩但非零
L1 (Lasso)	菱形	顶点（坐标轴上）概率大	部分权重精确为0

更精确的论证： 🦅 （可跳过的深水区：用"近端算子"严格说明 L1 为何把小权重直接归零） L1 正则化的近端算子 (proximal operator) 是软阈值 (soft-thresholding)：

{prox}_{λ ∥ \cdot ∥_{1}} (w_{j}) = sign (w_{j}) \cdot max (| w_{j} | - λ, 0)

当 $| w_{j} | < λ$ 时，该算子直接将其置0。而 L2 的近端算子是收缩但不置0：

{prox}_{λ ∥ \cdot ∥_{2}^{2}} (w_{j}) = \frac{w_{j}}{1 + 2 λ}

3.5 弹性网 (Elastic Net) — 两个世界的优点

结合 L1 和 L2：

L_{ElasticNet} (w) = \frac{1}{n} ∥ y - X w ∥_{2}^{2} + λ_{1} ∥ w ∥_{1} + λ_{2} ∥ w ∥_{2}^{2}

当特征之间存在分组相关时，弹性网通常优于 Lasso（Lasso 在组相关中只随机选一个）。

3.6 实践指南 (Practical Guide)

python

from sklearn.linear_model import LinearRegression, Ridge, Lasso

# 普通线性回归
lr = LinearRegression().fit(X_train, y_train)

# Ridge（L2）
ridge = Ridge(alpha=1.0).fit(X_train, y_train)

# Lasso（L1）  
lasso = Lasso(alpha=0.1).fit(X_train, y_train)

调参建议： $λ$ (sklearn 中为 alpha) 通常用交叉验证选择：RidgeCV 和 LassoCV。

4. 三个核心概念 (Three Core Concepts)

本章是本书理解所有后续模型的基石。我们反复使用了三个核心概念，它们将贯穿全书：

4.1 参数 (Parameters)

模型需要学习的"旋钮"。

模型	参数
线性回归	$w, b$ — 权重和偏置
逻辑回归	$w, b$ — 同上，只是经过 Sigmoid
神经网络	每层的权重矩阵 $W^{[l]}$ 和偏置 $b^{[l]}$
CNN	卷积（convolution /ˌkɒnvəˈluːʃən/）核权重 + 全连接层权重
Transformer（/trænsˈfɔːrmər/）	$W_{Q}, W_{K}, W_{V}, W_{O}$ 以及 MLP 权重

核心洞察： 几乎所有机器学习模型的结构都可以概括为：

\hat{y} = f (x; θ)

其中 $θ$ 是参数集， $f$ 是模型函数， $x$ 是输入。"学习"就是找到最优的 $θ$ 。

4.2 损失 (Loss)

衡量预测有多"差"的标尺。

任务	损失函数	公式
回归	MSE	$\frac{1}{n} \sum (y_{i} - {\hat{y}}_{i})^{2}$
二分类	交叉熵	$- \frac{1}{n} \sum [y \log \hat{y} + (1 - y) \log (1 - \hat{y})]$
多分类	交叉熵	$- \frac{1}{n} \sum \sum y_{i k} \log {\hat{y}}_{i k}$
聚类	K-means 损失	$\sum \| x_{i} - μ_{c_{i}} \|^{2}$

核心洞察： 损失函数的选择取决于任务类型和数据分布假设。MSE 假设高斯噪声，交叉熵假设分类分布。选择正确的损失函数比选择模型架构有时候更重要。

4.3 梯度 (Gradient)

指引参数更新方向的信息源。

优化 = 跟随梯度下山

θ^{(t + 1)} = θ^{(t)} - η \cdot \nabla_{θ} L (θ^{(t)})

这个简单的公式是所有深度学习训练的核心。在后续章节中，我们会看到：

反向传播（backpropagation /ˌbækprəpəˈɡeɪʃən/） (Backpropagation) 如何高效计算深度网络的梯度
动量（momentum /məˈmentəm/） (Momentum)、Adam 等如何改进梯度下降
学习率调度如何影响收敛

4.4 三者的关系

参数 θ → 模型预测 ŷ = f(x; θ) → 损失 L(ŷ, y) → 梯度 ∇θL → 更新 θ
   ↑                                                           |
   └────────────────────── 循环 (Epoch) ────────────────────────┘

理解这3个概念 = 理解了机器学习优化的 90%。 后续所有章节都只是在这个框架上增加：更复杂的参数结构（深度）、更巧妙的损失函数（对比学习、GAN）、更高效的梯度计算方法（自动微分、重参数化）。

本章演算盒索引

位置	演算盒	跳转
§1.3	🔍 正规方程手算 — 4×2 数据集	跳转
§1.4	🔍 梯度下降手算 — 3 步迭代	跳转
§2.3	🔍 逻辑回归梯度手算 — 单样本链式	跳转

5. 小结 (Summary)

5.1 关键公式回顾

概念	公式
线性回归模型	$\hat{y} = w^{T} x + b$
MSE 损失	$L = \frac{1}{n} \sum (y_{i} - {\hat{y}}_{i})^{2}$
正规方程	$w^{*} = (X^{T} X)^{- 1} X^{T} y$
Sigmoid	$σ (z) = \frac{1}{1 + e^{- z}}$
交叉熵损失	$L = - \frac{1}{n} \sum [y \log \hat{y} + (1 - y) \log (1 - \hat{y})]$
梯度下降更新	$w^{(t + 1)} = w^{(t)} - η \nabla L$
Ridge (L2)	$L + λ \| w \|_{2}^{2}$
Lasso (L1)	$L + λ \| w \|_{1}$
弹性网	$L + λ_{1} \| w \|_{1} + λ_{2} \| w \|_{2}^{2}$

5.2 与后续章节的联系

后续章节	联系
SVM	用 hinge loss 替代交叉熵，加入最大间隔思想
决策树 / 随机森林	非线性模型，不使用梯度
神经网络	多层逻辑回归 + 非线性激活函数
CNN	用卷积核替代全连接权重
Transformer	自注意力（attention /əˈtenʃən/）机制 + 位置编码
生成模型 (GAN/VAE)	更复杂的参数结构和损失函数

🐤 入门线一句话核心收获：机器学习就是 「调参数（旋钮）→ 看损失（错多少）→ 顺着梯度（最陡下坡方向）改一点 → 重复」。线性回归和逻辑回归只是这个循环里最简单的两个例子。记住这一句，后面所有模型都是它的升级版。

5.3 动手练习

🐤 入门线（不需要推导，跑代码 + 观察即可）：

跑一跑： 运行 code/linear_models.py，看损失曲线是不是真的一路下降，回归线是不是穿过点云。
调旋钮： 把学习率 $η$ 改大 10 倍、再改小 10 倍，观察损失曲线怎么变（发散？变慢？），亲身体会"步子大小"的影响。
直觉题： 用大白话回答——为什么不能直接拿"加阈值的线性回归"做分类，非要用 Sigmoid？（提示：回看 §2.1）

🦅 深入线（需要数学）：

推导练习： 从零推导多项式回归（在线性回归中加入 $x^{2}, x^{3}$ 特征），写出正规方程
代码练习： 在 linear_models.py 中加入 Elastic Net 正则化的梯度下降实现
直觉练习： 为什么逻辑回归的梯度形式与线性回归相同？核心区别在哪里？
实验练习： 在真实数据集（如 sklearn 的 diabetes）上比较 LinearRegression, Ridge, Lasso 的性能

下章预告： 第2章将介绍支撑向量机 (SVM)，在线性模型的基础上引入"最大间隔"的思想，并看到"核技巧"如何让线性模型处理非线性数据。

Last updated: 2026-06-16

参考文献 (References)

Legendre, A. M. (1805). Nouvelles méthodes pour la détermination des orbites des comètes. Courcier, Paris. — 首次提出最小二乘法。
Gauss, C. F. (1809). Theoria motus corporum coelestium. — 独立提出最小二乘。
Cox, D. R. (1958). The regression analysis of binary sequences. J. R. Statist. Soc. B, 20(2), 215–232. — 逻辑回归的开创性论文。

第1章 线性模型 — 机器学习的基石 ​

Chapter 1: Linear Models — The Foundation of Machine Learning ​

写在前面：本章有两条路 (Two Reading Paths) ​

🧰 迷你数学补给站 (Just-Enough Math) ​

目录 (Table of Contents) ​

1. 线性回归 (Linear Regression) ​

1.1 问题定义 (Problem Formulation) ​

1.2 MSE 损失函数 (MSE Loss Function) ​

1.3 最小二乘与正规方程 (OLS and Normal Equations) 📐 ​

推导：从 MSE 到正规方程 🦅 ​

何时使用闭式解 vs 梯度下降？ ​

1.4 梯度下降解法 (Gradient Descent Solution) 📐 ​

算法步骤 ​

线性回归的梯度 ​

三种变体 ​

1.5 实现与可视化 (Implementation & Visualization) ​

2. 逻辑回归 (Logistic Regression) ​

2.1 从线性回归到分类 (From Linear Regression to Classification) ​

2.2 Sigmoid 函数 (Sigmoid Function) ​

2.3 似然与交叉熵损失 (Likelihood & Cross-Entropy Loss) 📐 ​

模型定义 🦅 ​

从似然到损失函数 ​

梯度推导 ​

2.4 决策边界 (Decision Boundary) ​

2.5 实现与可视化 (Implementation & Visualization) ​

3. 正则化 (Regularization) ​

3.1 过拟合与欠拟合 (Under-fitting vs Over-fitting) ​

3.2 L2 正则化 / Ridge (Ridge Regression) ​

正规方程修正 ​

L2 正则化的效果 ​

3.3 L1 正则化 / Lasso (Lasso Regression) ​

L1 正则化的关键特性：稀疏性 ​

3.4 L1 vs L2 — 稀疏性的几何直觉 (Geometric Intuition for Sparsity) ​

3.5 弹性网 (Elastic Net) — 两个世界的优点 ​

3.6 实践指南 (Practical Guide) ​

4. 三个核心概念 (Three Core Concepts) ​

4.1 参数 (Parameters) ​

4.2 损失 (Loss) ​

4.3 梯度 (Gradient) ​

4.4 三者的关系 ​

本章演算盒索引 ​

5. 小结 (Summary) ​

5.1 关键公式回顾 ​

5.2 与后续章节的联系 ​

5.3 动手练习 ​

参考文献 (References) ​

第1章线性模型 — 机器学习的基石

Chapter 1: Linear Models — The Foundation of Machine Learning

写在前面：本章有两条路 (Two Reading Paths)

🧰 迷你数学补给站 (Just-Enough Math)

目录 (Table of Contents)

1. 线性回归 (Linear Regression)

1.1 问题定义 (Problem Formulation)

1.2 MSE 损失函数 (MSE Loss Function)

1.3 最小二乘与正规方程 (OLS and Normal Equations) 📐

推导：从 MSE 到正规方程 🦅

何时使用闭式解 vs 梯度下降？

1.4 梯度下降解法 (Gradient Descent Solution) 📐

算法步骤

线性回归的梯度

三种变体

1.5 实现与可视化 (Implementation & Visualization)

2. 逻辑回归 (Logistic Regression)

2.1 从线性回归到分类 (From Linear Regression to Classification)

2.2 Sigmoid 函数 (Sigmoid Function)

2.3 似然与交叉熵损失 (Likelihood & Cross-Entropy Loss) 📐

模型定义 🦅

从似然到损失函数

梯度推导

2.4 决策边界 (Decision Boundary)

2.5 实现与可视化 (Implementation & Visualization)

3. 正则化 (Regularization)

3.1 过拟合与欠拟合 (Under-fitting vs Over-fitting)

3.2 L2 正则化 / Ridge (Ridge Regression)

正规方程修正

L2 正则化的效果

3.3 L1 正则化 / Lasso (Lasso Regression)

L1 正则化的关键特性：稀疏性

3.4 L1 vs L2 — 稀疏性的几何直觉 (Geometric Intuition for Sparsity)

3.5 弹性网 (Elastic Net) — 两个世界的优点

3.6 实践指南 (Practical Guide)

4. 三个核心概念 (Three Core Concepts)

4.1 参数 (Parameters)

4.2 损失 (Loss)

4.3 梯度 (Gradient)

4.4 三者的关系

本章演算盒索引

5. 小结 (Summary)

5.1 关键公式回顾

5.2 与后续章节的联系

5.3 动手练习

参考文献 (References)