05 — 无监督学习（Unsupervised Learning）

无监督学习（Unsupervised Learning） 是在没有标签（labels）的情况下，从数据中发现隐藏结构的一类方法。与监督学习不同，我们只有输入 $X$ ，没有输出 $y$ 。目标可以是聚类（clustering）、降维（dimensionality reduction）或密度估计（density estimation）。
时间线:
1901: Pearson 提出 PCA（主成分分析）
1957: Lloyd 提出 K-Means 聚类算法（1982 年正式发表）
2008: van der Maaten & Hinton 提出 t-SNE 可视化算法
Unsupervised Learning discovers hidden structure in data without labels. Unlike supervised learning, we only have inputs $X$ but no outputs $y$ . Goals include clustering, dimensionality reduction, and density estimation.

前置知识 (Prerequisites): Vol 2 线性代数（SVD、特征分解）、概率论基础 依赖库 (Dependencies): numpy, scikit-learn, matplotlib

目录 (Table of Contents)

K-Means 聚类 (K-Means Clustering)
PCA 主成分分析 (Principal Component Analysis) 📐
t-SNE 与 UMAP
高斯混合模型 GMM (Gaussian Mixture Models)

1. K-Means 聚类 (K-Means Clustering)

1.1 问题定义 (Problem Definition)

给定数据集 ${x_{1}, x_{2}, \dots, x_{m}}$ ，其中 $x_{i} \in R^{n}$ ，K-Means 的目标是将数据划分成 $k$ 个簇（clusters），使得每个点属于离它最近的簇中心（centroid）。

1.2 算法 (The Algorithm)

K-Means 是一个迭代式算法：

Algorithm 1: K-Means 聚类

初始化：随机（stochastic /stəˈkæstɪk/）选择 $k$ 个样本作为初始质心 ${μ_{1}, μ_{2}, \dots, μ_{k}}$
分配步骤 (Assignment Step)：每个点分配给最近的质心
$c^{(i)} = \arg min_{j} ∥ x^{(i)} - μ_{j} ∥_{2}^{2}$
更新步骤 (Update Step)：重新计算每个簇的质心
$μ_{j} = \frac{1}{| C_{j} |} \sum_{x^{(i)} \in C_{j}} x^{(i)}$
重复步骤 2-3，直到收敛（质心不再变化或达到最大迭代次数）

为什么 K-Means 保证收敛？ 算法的目标是最小化惯性（inertia），即所有点到其所属簇中心的平方距离之和：

J = \sum_{j = 1}^{k} \sum_{x^{(i)} \in C_{j}} ∥ x^{(i)} - μ_{j} ∥_{2}^{2}

分配步骤中，每个点被分配给最近的质心 → $J$ 单调不增
更新步骤中，质心被更新为簇内所有点的均值 → 凸优化问题， $J$ 单调不增

由于 $J$ 有下界（≥ 0），且每次迭代 $J$ 都不增加，所以算法一定收敛。

💡 理解收敛性: 但 K-Means 只能保证收敛到局部最优（local optimum），而非全局最优。不同的初始质心可能导致不同的最终结果。

1.3 局限性与改进 (Limitations & Improvements)

局限性	说明	改进方法
假设球形簇	K-Means 假设簇是各向同性的（isotropic）	使用 GMM（见第 4 节）
对初始值敏感	不同的初始值可能导致不同结果	K-Means++ 初始化
需要指定 $k$	必须预先设定簇的数量	肘部法则（Elbow Method）
对异常值敏感	均值对异常值不鲁棒	使用 K-Medoids

1.4 肘部法则 (Elbow Method)

如何选择 $k$ ？肘部法则绘制不同 $k$ 对应的 inertia，寻找"肘部"：

inertia (k) = \sum_{j = 1}^{k} \sum_{x \in C_{j}} ∥ x - μ_{j} ∥_{2}^{2}

随着 $k$ 增大，inertia 单调下降。当下降速度突然变缓时，对应的 $k$ 就是"肘部"——再增加簇数量收益很小。

python

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, init='k-means++', n_init=10, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_          # 每个点的簇分配
centroids = kmeans.cluster_centers_  # 质心坐标
inertia = kmeans.inertia_        # 最终 inertia 值

2. PCA 主成分分析 (Principal Component Analysis)

2.1 核心思想 (Core Idea)

PCA 寻找数据中方差最大的方向（directions of maximum variance），将高维数据投影到低维子空间，同时尽可能保留数据的变异信息。

🔍 完整演算：协方差矩阵手算 — 4×3 数据集

📐 公式

协方差矩阵 (Covariance Matrix) 衡量数据集中每对特征之间的线性关系：

C = \frac{1}{n - 1} {\tilde{X}}^{⊤} \tilde{X}

其中 $\tilde{X} = X - μ$ 是中心化后的数据矩阵， $n$ 是样本数。

矩阵形式的完整定义：

C = \frac{1}{n - 1} \sum_{i = 1}^{n} (x^{(i)} - μ) (x^{(i)} - μ)^{⊤}

即每个样本的外积（outer product）之和除以 $(n - 1)$ 。

📖 参数含义

符号	名称	含义
$X \in R^{n \times d}$	数据矩阵	$n$ 个样本， $d$ 个特征，本例 $n = 4, d = 3$
$\tilde{X}$	中心化数据矩阵	每列减去该列均值后的结果
$μ \in R^{d}$	均值向量	每个特征的样本均值
$C \in R^{d \times d}$	协方差矩阵	$C_{i j} = Cov (X_{i}, X_{j})$ ，对称半正定矩阵
$C_{i j}$	协方差	特征 $i$ 与特征 $j$ 之间的协方差； $i = j$ 时为方差

📝 公式来源

协方差矩阵的定义来自方差概念的推广。单个特征的方差为：

Var (X) = E [(X - μ)^{2}] = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ)^{2}

将其推广到多个特征，就得到协方差矩阵：

Var (X) = E [(X - μ) (X - μ)^{⊤}]

矩阵 ${\tilde{X}}^{⊤} \tilde{X}$ 的每个元素 $(i, j)$ 恰好是特征 $i$ 和特征 $j$ 的中心化观测值的点积，除以 $(n - 1)$ 后即为协方差。

协方差矩阵是 PCA 的起点——它的特征向量指明了数据方差最大的方向，这是全书第一次出现这一核心概念。

✏️ 手算演示

给定数据集 $X = [\begin{matrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 3 & 6 & 9 \\ 4 & 8 & 12 \end{matrix}]$ （4 个样本，3 个特征）

Step 1: 计算列均值

μ_{1} = \frac{1 + 2 + 3 + 4}{4} = 2.5, μ_{2} = \frac{2 + 4 + 6 + 8}{4} = 5, μ_{3} = \frac{3 + 6 + 9 + 12}{4} = 7.5

Step 2: 中心化数据（每列减去对应均值）

\tilde{X} = [\begin{matrix} - 1.5 & - 3 & - 4.5 \\ - 0.5 & - 1 & - 1.5 \\ 0.5 & 1 & 1.5 \\ 1.5 & 3 & 4.5 \end{matrix}]

验证：每列之和为 $0$ ✓

Step 3: 计算 ${\tilde{X}}^{⊤} \tilde{X}$ （外积和）

${\tilde{X}}^{⊤} \tilde{X}$ 是 $3 \times 3$ 矩阵，第 $(i, j)$ 个元素是第 $i$ 列与第 $j$ 列的内积：

{\tilde{X}}^{⊤} {\tilde{X}}_{11} = (- 1.5)^{2} + (- 0.5)^{2} + {0.5}^{2} + {1.5}^{2} = 2.25 + 0.25 + 0.25 + 2.25 = 5

{\tilde{X}}^{⊤} {\tilde{X}}_{12} = (- 1.5) (- 3) + (- 0.5) (- 1) + 0.5 (1) + 1.5 (3) = 4.5 + 0.5 + 0.5 + 4.5 = 10

{\tilde{X}}^{⊤} {\tilde{X}}_{13} = (- 1.5) (- 4.5) + (- 0.5) (- 1.5) + 0.5 (1.5) + 1.5 (4.5) = 6.75 + 0.75 + 0.75 + 6.75 = 15

{\tilde{X}}^{⊤} {\tilde{X}}_{22} = (- 3)^{2} + (- 1)^{2} + 1^{2} + 3^{2} = 9 + 1 + 1 + 9 = 20

{\tilde{X}}^{⊤} {\tilde{X}}_{23} = (- 3) (- 4.5) + (- 1) (- 1.5) + 1 (1.5) + 3 (4.5) = 13.5 + 1.5 + 1.5 + 13.5 = 30

{\tilde{X}}^{⊤} {\tilde{X}}_{33} = (- 4.5)^{2} + (- 1.5)^{2} + {1.5}^{2} + {4.5}^{2} = 20.25 + 2.25 + 2.25 + 20.25 = 45

由对称性得 ${\tilde{X}}^{⊤} {\tilde{X}}_{21} = {\tilde{X}}^{⊤} {\tilde{X}}_{12} = 10$ ， ${\tilde{X}}^{⊤} {\tilde{X}}_{31} = 15$ ， ${\tilde{X}}^{⊤} {\tilde{X}}_{32} = 30$ 。因此：

{\tilde{X}}^{⊤} \tilde{X} = [\begin{matrix} 5 & 10 & 15 \\ 10 & 20 & 30 \\ 15 & 30 & 45 \end{matrix}]

Step 4: 除以 $(n - 1)$ 得到协方差矩阵

C = \frac{1}{3} {\tilde{X}}^{⊤} \tilde{X} = [\begin{matrix} 5 / 3 & 10 / 3 & 5 \\ 10 / 3 & 20 / 3 & 10 \\ 5 & 10 & 15 \end{matrix}] \approx [\begin{matrix} 1.667 & 3.333 & 5 \\ 3.333 & 6.667 & 10 \\ 5 & 10 & 15 \end{matrix}]

验证：本例中 $X_{2} = 2 X_{1}$ 、 $X_{3} = 3 X_{1}$ ，因此 $Cov (X_{1}, X_{2}) = 2 \times Var (X_{1}) = 2 \times \frac{5}{3} = \frac{10}{3}$ ✓，且 $Cov (X_{1}, X_{3}) = 3 \times Var (X_{1}) = 3 \times \frac{5}{3} = 5$ ✓。

🌍 实际意义

PCA 的基石：协方差矩阵的特征分解直接给出主成分方向。特征值最大的特征向量对应数据方差最大的方向，这就是全书第一次出现协方差矩阵的原因——它是后续所有降维技术的数学起点
对角化：PCA 的本质就是找到一组正交基，使得协方差矩阵在这组基下变为对角矩阵（各特征不再相关）
与 SVD 的关系： $C = \frac{1}{n - 1} V Σ^{⊤} Σ V^{⊤}$ ，右奇异向量 $V$ 就是特征向量，奇异值的平方对应特征值

2.2 数学推导 (Mathematical Derivation) 📐

假设数据矩阵 $X \in R^{m \times n}$ （ $m$ 个样本， $n$ 个特征）。

第一步：中心化（Center the data）

\tilde{X} = X - μ, 其中 μ_{j} = \frac{1}{m} \sum_{i = 1}^{m} X_{i j}

第二步：找到最大方差方向

第一主成分 $w_{1}$ 是单位向量，使得投影后的方差最大：

w_{1} = \arg max_{∥ w ∥ = 1} \frac{1}{m} \sum_{i = 1}^{m} ({\tilde{x}}^{(i)} \cdot w)^{2} = \arg max_{∥ w ∥ = 1} w^{⊤} C w

其中 $C = \frac{1}{m} {\tilde{X}}^{⊤} \tilde{X}$ 是协方差矩阵。

可以证明： $w_{1}$ 是 $C$ 的最大特征值对应的特征向量。

第三步：通过 SVD 实现（Connection to SVD）

使用 SVD（参见 Vol 2 第 1 章第 4 节），我们不需要显式构造协方差矩阵：

\tilde{X} = U Σ V^{⊤}

其中：

$U \in R^{m \times m}$ ：左奇异向量
$Σ \in R^{m \times n}$ ：奇异值矩阵（ $σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0$ ）
$V \in R^{n \times n}$ ：右奇异向量

那么协方差矩阵为：

C = \frac{1}{m} {\tilde{X}}^{⊤} \tilde{X} = \frac{1}{m} V Σ^{⊤} Σ V^{⊤}

PCA 的关键等价关系：

SVD 中的量	PCA 中的含义
右奇异向量 $V$ 的列	主成分方向（principal components）
奇异值 $σ_{i}$	对应方向的标准差（乘以 $\sqrt{m}$ ）
矩阵 $U Σ$	主成分得分（principal component scores）

💡 为什么用 SVD 而不是协方差矩阵？ 计算 ${\tilde{X}}^{⊤} \tilde{X}$ 会平方条件数（condition number），导致数值不稳定。SVD 直接作用于 $\tilde{X}$ ，数值更稳定，且不需要在样本数很大时计算 $n \times n$ 的协方差矩阵。

2.3 PCA 算法步骤 (Algorithm Steps) 📐

中心化数据 $\tilde{X} = X - μ$
对 $\tilde{X}$ 计算 SVD： $\tilde{X} = U Σ V^{⊤}$
取 $V$ 的前 $k$ 列作为主成分方向： $W_{k} = V_{[:, : k]}$
投影数据： $Z = \tilde{X} W_{k} = U_{k} Σ_{k}$

🔍 完整演算：PCA via SVD 手算 - 4x2 到 1D 降维

📐 公式

PCA 通过对中心化数据矩阵的 SVD 实现降维：

\tilde{X} = U Σ V^{⊤}

其中 $\tilde{X} \in R^{m \times n}$ 。取前 $k$ 个右奇异向量作为主成分方向：

W_{k} = V_{[:, : k]}

将数据投影到 $k$ 维子空间：

Z = \tilde{X} W_{k} = U_{k} Σ_{k}

📖 参数含义

符号	名称	含义
$\tilde{X}$	中心化数据矩阵	每列减去均值后的 $m \times n$ 矩阵，本例 $m = 4, n = 2$
$U \in R^{m \times m}$	左奇异向量矩阵	每列是 $\tilde{X} {\tilde{X}}^{⊤}$ 的特征向量，反映样本在主方向上的关系
$Σ \in R^{m \times n}$	奇异值矩阵	对角元素 $σ_{i}$ 为奇异值， $σ_{1} \geq σ_{2} \geq \dots \geq 0$
$V \in R^{n \times n}$	右奇异向量矩阵	每列是 ${\tilde{X}}^{⊤} \tilde{X}$ 的特征向量 = 主成分方向
$W_{k}$	投影矩阵	前 $k$ 个主成分方向组成的 $n \times k$ 矩阵
$Z \in R^{m \times k}$	主成分得分	数据在 $k$ 维子空间中的表示

📝 公式来源

SVD 与 PCA 的等价关系来自协方差矩阵的分解：

{\tilde{X}}^{⊤} \tilde{X} = (U Σ V^{⊤})^{⊤} (U Σ V^{⊤}) = V Σ^{⊤} Σ V^{⊤}

因此 ${\tilde{X}}^{⊤} \tilde{X}$ 的特征分解等价于 $V Σ^{2} V^{⊤}$ ，其中 $Σ^{2}$ 由奇异值的平方（即特征值）构成。

核心等价关系：

$V$ 的列 = ${\tilde{X}}^{⊤} \tilde{X}$ 的特征向量 = 主成分方向
$σ_{i}^{2}$ = 第 $i$ 个主成分方向上的特征值（方差贡献）
$U Σ$ 的列 = 主成分得分（投影后的坐标）

为什么用 SVD 更好？ 直接计算 ${\tilde{X}}^{⊤} \tilde{X}$ 会平方条件数（condition number），导致数值不稳定。SVD 直接作用于 $\tilde{X}$ ，数值更稳定且更高效。

✏️ 手算演示

给定数据集 $X = [\begin{matrix} 1 & 2 \\ 2 & 3 \\ 4 & 5 \\ 5 & 4 \end{matrix}]$ （4 个样本，2 个特征），目标：降至 1 维。

Step 1: 中心化数据

μ_{1} = \frac{1 + 2 + 4 + 5}{4} = 3, μ_{2} = \frac{2 + 3 + 5 + 4}{4} = 3.5

\tilde{X} = [\begin{matrix} - 2 & - 1.5 \\ - 1 & - 0.5 \\ 1 & 1.5 \\ 2 & 0.5 \end{matrix}]

Step 2: 计算 ${\tilde{X}}^{⊤} \tilde{X}$

{\tilde{X}}^{⊤} \tilde{X} = [\begin{matrix} 4 + 1 + 1 + 4 & 3 + 0.5 + 1.5 + 1 \\ 3 + 0.5 + 1.5 + 1 & 2.25 + 0.25 + 2.25 + 0.25 \end{matrix}] = [\begin{matrix} 10 & 6 \\ 6 & 5 \end{matrix}]

Step 3: 求解特征值和特征向量

特征方程：

det ({\tilde{X}}^{⊤} \tilde{X} - λ I) = det [\begin{matrix} 10 - λ & 6 \\ 6 & 5 - λ \end{matrix}] = (10 - λ) (5 - λ) - 36 = 0

λ^{2} - 15 λ + 14 = 0 ⟹ (λ - 14) (λ - 1) = 0

λ_{1} = 14, λ_{2} = 1

奇异值： $σ_{1} = \sqrt{14} \approx 3.742$ ， $σ_{2} = 1$

Step 4: 求右奇异向量（主成分方向）

对于 $λ_{1} = 14$ ：

[\begin{matrix} - 4 & 6 \\ 6 & - 9 \end{matrix}] [\begin{matrix} v_{11} \\ v_{21} \end{matrix}] = 0 ⟹ - 4 v_{11} + 6 v_{21} = 0 ⟹ v_{11} = 1.5 v_{21}

取 $v_{21} = 2$ ，得 $v_{11} = 3$ 。归一化： $∥ v_{1} ∥ = \sqrt{9 + 4} = \sqrt{13} \approx 3.606$

v_{1} = [\begin{matrix} 3 / \sqrt{13} \\ 2 / \sqrt{13} \end{matrix}] \approx [\begin{matrix} 0.832 \\ 0.555 \end{matrix}]

对于 $λ_{2} = 1$ ：

[\begin{matrix} 9 & 6 \\ 6 & 4 \end{matrix}] [\begin{matrix} v_{12} \\ v_{22} \end{matrix}] = 0 ⟹ 9 v_{12} + 6 v_{22} = 0 ⟹ v_{12} = - \frac{2}{3} v_{22}

取 $v_{22} = 3$ ，得 $v_{12} = - 2$ 。归一化： $∥ v_{2} ∥ = \sqrt{4 + 9} = \sqrt{13}$

v_{2} = [\begin{matrix} - 2 / \sqrt{13} \\ 3 / \sqrt{13} \end{matrix}] \approx [\begin{matrix} - 0.555 \\ 0.832 \end{matrix}]

因此：

V = [\begin{matrix} 3 / \sqrt{13} & - 2 / \sqrt{13} \\ 2 / \sqrt{13} & 3 / \sqrt{13} \end{matrix}]

Step 5: 取第一主成分（ $k = 1$ ）投影到 1 维子空间

w_{1} = v_{1} = [\begin{matrix} 3 / \sqrt{13} \\ 2 / \sqrt{13} \end{matrix}]

Z = \tilde{X} w_{1} = [\begin{matrix} - 2 & - 1.5 \\ - 1 & - 0.5 \\ 1 & 1.5 \\ 2 & 0.5 \end{matrix}] [\begin{matrix} 3 / \sqrt{13} \\ 2 / \sqrt{13} \end{matrix}] = \frac{1}{\sqrt{13}} [\begin{matrix} - 9 \\ - 4 \\ 6 \\ 7 \end{matrix}] \approx [\begin{matrix} - 2.497 \\ - 1.110 \\ 1.664 \\ 1.942 \end{matrix}]

验证： $Z = U_{1} σ_{1}$ ，其中 $U_{1}$ 是 $U$ 的第一列：

U_{1} = \frac{\tilde{X} v_{1}}{σ_{1}} = \frac{1}{\sqrt{14}} [\begin{matrix} - 9 / \sqrt{13} \\ - 4 / \sqrt{13} \\ 6 / \sqrt{13} \\ 7 / \sqrt{13} \end{matrix}] = [\begin{matrix} - 9 / \sqrt{182} \\ - 4 / \sqrt{182} \\ 6 / \sqrt{182} \\ 7 / \sqrt{182} \end{matrix}]

🌍 实际意义

降维：PCA 通过 SVD 将 $n$ 维数据投影到 $k$ 维子空间，保留最大方差方向（ $k ≪ n$ ）
去噪：丢弃小奇异值对应的成分相当于滤除噪声——噪声通常在各方向上均匀分布，而信号集中在大奇异值方向
可视化的桥梁：SVD 分解清晰地展示了"方向"（ $V$ ）、"强度"（ $Σ$ ）和"样本坐标"（ $U Σ$ ）三个核心元素

2.4 应用场景 (Applications)

降维（Dimensionality Reduction）： 用更少的特征训练模型，减少过拟合（overfitting /ˈoʊvərˈfɪtɪŋ/）
可视化（Visualization）： 将高维数据投影到 2D/3D 平面
去噪（Noise Reduction）： 丢弃小奇异值对应的成分可以滤除噪声
特征工程（Feature Engineering）： PCA 成分可以作为新特征

2.5 保留方差比例 (Explained Variance Ratio) 📐

第 $i$ 个主成分解释的方差比例为：

r_{i} = \frac{σ_{i}^{2}}{\sum_{j = 1}^{r} σ_{j}^{2}}

前 $k$ 个主成分累计解释的方差比例为 $\sum_{i = 1}^{k} r_{i}$ 。通常选择 $k$ 使得累计方差比例达到 95%。

python

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)           # 投影到 2D
explained_ratio = pca.explained_variance_ratio_  # 每个成分解释的方差比例
components = pca.components_            # 主成分方向（V 的列）

🔍 完整演算：保留方差比例手算

📐 公式

第 $i$ 个主成分解释的方差比例（Explained Variance Ratio）：

r_{i} = \frac{σ_{i}^{2}}{\sum_{j = 1}^{r} σ_{j}^{2}}

其中 $σ_{i}$ 是第 $i$ 个奇异值， $r = min (m, n)$ 是非零奇异值的个数。

前 $k$ 个主成分的累计方差比例（Cumulative Explained Variance Ratio）：

R_{k} = \sum_{i = 1}^{k} r_{i} = \frac{\sum_{i = 1}^{k} σ_{i}^{2}}{\sum_{j = 1}^{r} σ_{j}^{2}}

📖 参数含义

符号	名称	含义
$σ_{i}$	第 $i$ 个奇异值	来自 $\tilde{X} = U Σ V^{⊤}$ ， $σ_{1} \geq σ_{2} \geq \dots$
$σ_{i}^{2}$	特征值	等于协方差矩阵 $C$ 的第 $i$ 大特征值 $λ_{i}$
$r_{i}$	单成分方差比例	第 $i$ 个主成分解释的方差占总方差的比例
$R_{k}$	累计方差比例	前 $k$ 个主成分累计解释的方差比例
$r$	矩阵的秩	非零奇异值的个数（最多 $min (m, n)$ ）

📝 公式来源

协方差矩阵的迹（trace）等于总方差：

tr (C) = \sum_{i = 1}^{n} C_{i i} = \sum_{i = 1}^{n} Var (X_{i})

由于协方差矩阵的特征值之和等于迹（ $\sum λ_{i} = tr (C)$ ），且 $λ_{i} = σ_{i}^{2}$ （忽略 $n - 1$ 因子），因此：

总方差 = \sum σ_{j}^{2}

第 $i$ 个主成分贡献的方差比例即为 $σ_{i}^{2} / \sum σ_{j}^{2}$ 。

95% 经验法则：通常选择最小的 $k$ 使得 $R_{k} \geq 0.95$ ，即保留 95% 以上的方差信息。这个阈值是降维中最常用的经验规则。

✏️ 手算演示

从 Box B 中我们已经得到奇异值：

σ_{1} = \sqrt{14} \approx 3.742, σ_{2} = 1

Step 1: 计算总方差

σ_{1}^{2} + σ_{2}^{2} = 14 + 1 = 15

Step 2: 计算各成分的方差比例

第一主成分：

r_{1} = \frac{σ_{1}^{2}}{σ_{1}^{2} + σ_{2}^{2}} = \frac{14}{15} \approx 0.933 (93.3 %)

第二主成分：

r_{2} = \frac{σ_{2}^{2}}{σ_{1}^{2} + σ_{2}^{2}} = \frac{1}{15} \approx 0.067 (6.7 %)

Step 3: 计算累计方差比例

R_{1} = r_{1} = \frac{14}{15} \approx 0.933 (93.3 %)

R_{2} = r_{1} + r_{2} = \frac{14}{15} + \frac{1}{15} = 1 (100 %)

Step 4: 降维决策

若按 95% 阈值： $R_{1} = 93.3 % < 95 %$ ，需要保留 $k = 2$ 个主成分
若按 90% 阈值： $R_{1} = 93.3 % > 90 %$ ，仅需保留 $k = 1$ 个主成分

🌍 实际意义

降维决策：保留方差比例是选择 $k$ 的主要依据。典型阈值 95% 意味着我们接受 5% 的信息损失来换取维度的大幅降低
Scree Plot：绘制 $r_{i}$ 的降序条形图（Scree Plot），寻找"肘部"——拐点之后的主成分贡献很小，可视为噪声
低秩数据：如果前几个奇异值远大于其余，说明数据本质上是低秩的（low-rank），可以用很少的维度近似表示

3. t-SNE 与 UMAP

3.1 为什么需要非线性降维？(Why Non-linear Dimensionality Reduction?)

PCA 是线性降维方法——它假设数据的主要变化方向是线性的。但现实数据往往位于复杂的**非线性流形（non-linear manifold）**上。例如，MNIST 手写数字在 784 维空间中位于一个高度弯曲的流形上，PCA 无法将其展开。

3.2 t-SNE (t-Distributed Stochastic Neighbor Embedding)

t-SNE 是一种非线性降维方法，特别擅长可视化高维数据。

核（kernel /ˈkɜːrnl/）心思想： 在高维空间中定义点之间的概率相似度，然后在低维空间中找到一个分布，使两者之间的 KL 散度（KL divergence）最小。

P_{j | i} = \frac{\exp (- ∥ x_{i} - x_{j} ∥^{2} / 2 σ_{i}^{2})}{\sum_{k \neq i} \exp (- ∥ x_{i} - x_{k} ∥^{2} / 2 σ_{i}^{2})}

在低维空间中，使用 t-分布（Student's t-distribution） 定义相似度（t-分布有更重的尾巴，可以避免"拥挤问题"）：

Q_{i j} = \frac{(1 + ∥ y_{i} - y_{j} ∥^{2})^{- 1}}{\sum_{k \neq l} (1 + ∥ y_{k} - y_{l} ∥^{2})^{- 1}}

优化目标（最小化 KL 散度）：

C = \sum_{i} \sum_{j} P_{j | i} \log \frac{P_{j | i}}{Q_{i j}}

3.3 UMAP (Uniform Manifold Approximation and Projection)

UMAP 是一个更新的方法，比 t-SNE 更快，且能更好地保留全局结构（global structure）。

特性	t-SNE	UMAP
速度	较慢 ( $O (n^{2})$ )	更快（基于图论优化）
全局结构	主要保留局部邻域	更好地保留全局结构
距离意义	❌ 簇间距离无意义	❌ 同样无意义
可扩展性	不适合大数据集	可扩展到百万级样本
理论基础	概率模型	基于黎曼几何和拓扑学

3.4 ⚠️ 重要警告 (Important Warnings)

t-SNE 和 UMAP 仅用于可视化（visualization ONLY），不能用于特征提取或下游模型训练。 原因：

非确定性映射： 每次运行结果不同
距离无意义： 特别是 t-SNE 中，簇之间的距离不代表高维空间中的真实距离
无法泛化到新样本： 需要重新运行整个算法
超参数（hyperparameter /ˈhaɪpərpəˈræmɪtər/）敏感： perplexity（/pərˈpleksəti/）等参数（parameter /pəˈræmɪtər/）对结果影响很大

python

from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_tsne = tsne.fit_transform(X)  # 仅用于可视化！

4. 高斯混合模型 GMM (Gaussian Mixture Models)

4.1 从硬聚类到软聚类 (From Hard to Soft Clustering)

K-Means 是硬聚类（hard clustering）——每个点唯一地属于一个簇。但有时一个点可能"部分属于"多个簇。

高斯混合模型（Gaussian Mixture Model, GMM） 是软聚类（soft clustering）：每个点以不同的概率属于所有簇，这些概率之和为 1。

4.2 模型定义 (Model Definition)

GMM 假设数据由 $k$ 个高斯分布混合生成：

p (x) = \sum_{j = 1}^{k} π_{j} N (x ∣ μ_{j}, Σ_{j})

其中：

$π_{j}$ 是混合权重（mixing coefficient），满足 $\sum_{j = 1}^{k} π_{j} = 1$
$N (μ_{j}, Σ_{j})$ 是第 $j$ 个高斯分布的密度函数：
$N (x ∣ μ, Σ) = \frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))$

4.3 EM 算法直觉 (EM Algorithm Intuition)

GMM 的参数 ${π_{j}, μ_{j}, Σ_{j}}_{j = 1}^{k}$ 通过期望最大化（Expectation-Maximization, EM） 算法学习。

EM 是处理隐变量（latent（/ˈleɪtənt/） variables） 问题的一般框架。在 GMM 中，隐变量 $z^{(i)}$ 表示样本 $x^{(i)}$ 来自哪个高斯成分。

E 步（E-step）： 估计每个点属于每个簇的概率（责任，responsibility）

γ_{i j} = p (z^{(i)} = j ∣ x^{(i)}) = \frac{π_{j} N (x^{(i)} ∣ μ_{j}, Σ_{j})}{\sum_{l = 1}^{k} π_{l} N (x^{(i)} ∣ μ_{l}, Σ_{l})}

M 步（M-step）： 用加权最大似然估计更新参数

μ_{j} = \frac{\sum_{i = 1}^{m} γ_{i j} x^{(i)}}{\sum_{i = 1}^{m} γ_{i j}}, Σ_{j} = \frac{\sum_{i = 1}^{m} γ_{i j} (x^{(i)} - μ_{j}) (x^{(i)} - μ_{j})^{⊤}}{\sum_{i = 1}^{m} γ_{i j}}, π_{j} = \frac{1}{m} \sum_{i = 1}^{m} γ_{i j}

💡 EM 迭代直觉: E 步做"软分配"（就像 K-Means 的分配步骤，但这里是概率形式的），M 步用加权数据更新参数（就像 K-Means 更新质心，但每个点的贡献被加权）。

4.4 GMM vs K-Means

特性	K-Means	GMM
聚类类型	硬聚类	软聚类（概率）
簇形状	球形（各向同性）	椭圆（任意协方差）
参数	仅质心位置	均值、协方差、权重
算法	Lloyd 迭代	EM 算法
复杂度	简单快速	更慢但更灵活

python

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=3, random_state=42)
gmm.fit(X)
probs = gmm.predict_proba(X)   # 每个点属于每个簇的概率 (m × k)
labels = gmm.predict(X)         # 最可能的簇分配
means = gmm.means_              # 每个成分的均值
covars = gmm.covariances_       # 每个成分的协方差矩阵

4.5 如何选择 $k$ ?

对于 GMM，可以使用赤池信息量准则（AIC） 或贝叶斯信息量准则（BIC） 来选择成分数量：

AIC = - 2 \ln \hat{L} + 2 d, BIC = - 2 \ln \hat{L} + d \ln m

其中 $d$ 是参数数量， $\hat{L}$ 是最大化似然值。AIC/BIC 越小越好。

本章总结 (Chapter Summary)

方法	类型	核心思想	输出	主要应用
K-Means	聚类（硬）	最小化 inertia	簇分配	客户分群、图像分割
PCA	降维（线性）	最大化方差方向	主成分	可视化、去噪、特征提取
t-SNE / UMAP	降维（非线性）	保留邻域结构	2D/3D 嵌入（embedding /ɪmˈbedɪŋ/）	🔍 仅用于可视化
GMM	聚类（软）	概率混合模型	概率分配	密度估计、异常检测

关键概念速查 (Key Concepts)

概念	含义
Inertia	各点到所属簇中心的平方距离之和
Elbow Method	绘制 inertia- $k$ 曲线，选择拐点处的 $k$
K-Means++	智能初始化（让初始质心尽可能分散）
Explained Variance Ratio	每个主成分解释的方差占比 $σ_{i}^{2} / \sum σ_{j}^{2}$
KL 散度	t-SNE 的优化目标，衡量两个分布之间的差异
Responsibility	GMM 中一个点属于某个成分的后验概率
AIC / BIC	模型选择准则，平衡拟合度与复杂度

本章演算盒索引

位置	演算盒	跳转
§2.2	🔍 协方差矩阵手算 — 4×3 数据集	跳转
§2.3	🔍 PCA via SVD 手算 — 4×2→1D	跳转
§2.5	🔍 保留方差比例手算	跳转

进一步阅读 (Further Reading)

下一章预告: 模型评估与选择 — 交叉验证、偏差-方差权衡、ROC 曲线，用严谨的方法论评估 ML 模型。

参考文献 (References)

Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine, 2(11), 559–572. — PCA 的首次提出。
Lloyd, S. P. (1982). Least squares quantization in PCM. IEEE Trans. Inform. Theory, 28(2), 129–137. — K-Means 算法。
van der Maaten, L. & Hinton, G. (2008). Visualizing data using t-SNE. JMLR, 9, 2579–2605. — t-SNE 的提出。

05 — 无监督学习（Unsupervised Learning） ​

目录 (Table of Contents) ​

1. K-Means 聚类 (K-Means Clustering) ​

1.1 问题定义 (Problem Definition) ​

1.2 算法 (The Algorithm) ​

1.3 局限性与改进 (Limitations & Improvements) ​

1.4 肘部法则 (Elbow Method) ​

2. PCA 主成分分析 (Principal Component Analysis) ​

2.1 核心思想 (Core Idea) ​

2.2 数学推导 (Mathematical Derivation) 📐 ​

2.3 PCA 算法步骤 (Algorithm Steps) 📐 ​

2.4 应用场景 (Applications) ​

2.5 保留方差比例 (Explained Variance Ratio) 📐 ​

3. t-SNE 与 UMAP ​

3.1 为什么需要非线性降维？(Why Non-linear Dimensionality Reduction?) ​

3.2 t-SNE (t-Distributed Stochastic Neighbor Embedding) ​

3.3 UMAP (Uniform Manifold Approximation and Projection) ​

3.4 ⚠️ 重要警告 (Important Warnings) ​

4. 高斯混合模型 GMM (Gaussian Mixture Models) ​

4.1 从硬聚类到软聚类 (From Hard to Soft Clustering) ​

4.2 模型定义 (Model Definition) ​

4.3 EM 算法直觉 (EM Algorithm Intuition) ​

4.4 GMM vs K-Means ​

4.5 如何选择 k? ​

本章总结 (Chapter Summary) ​

关键概念速查 (Key Concepts) ​

本章演算盒索引 ​

进一步阅读 (Further Reading) ​

参考文献 (References) ​

05 — 无监督学习（Unsupervised Learning）

目录 (Table of Contents)

1. K-Means 聚类 (K-Means Clustering)

1.1 问题定义 (Problem Definition)

1.2 算法 (The Algorithm)

1.3 局限性与改进 (Limitations & Improvements)

1.4 肘部法则 (Elbow Method)

2. PCA 主成分分析 (Principal Component Analysis)

2.1 核心思想 (Core Idea)

2.2 数学推导 (Mathematical Derivation) 📐

2.3 PCA 算法步骤 (Algorithm Steps) 📐

2.4 应用场景 (Applications)

2.5 保留方差比例 (Explained Variance Ratio) 📐

3. t-SNE 与 UMAP

3.1 为什么需要非线性降维？(Why Non-linear Dimensionality Reduction?)

3.2 t-SNE (t-Distributed Stochastic Neighbor Embedding)

3.3 UMAP (Uniform Manifold Approximation and Projection)

3.4 ⚠️ 重要警告 (Important Warnings)

4. 高斯混合模型 GMM (Gaussian Mixture Models)

4.1 从硬聚类到软聚类 (From Hard to Soft Clustering)

4.2 模型定义 (Model Definition)

4.3 EM 算法直觉 (EM Algorithm Intuition)

4.4 GMM vs K-Means

4.5 如何选择 $k$ ?

本章总结 (Chapter Summary)

关键概念速查 (Key Concepts)

本章演算盒索引

进一步阅读 (Further Reading)

参考文献 (References)