概念界定
特征分解和奇异值分解(SVD)都是分析矩阵结构的方法。它们试图找出矩阵作用中最重要的方向和尺度,常用于理解主方向、降维、低秩近似、表示分析和模型压缩。
背景与问题
在大模型中,权重矩阵和激活矩阵通常维度很高。为了理解这些矩阵是否存在冗余、是否集中在少数方向、能否被压缩,需要使用矩阵分解工具。SVD 尤其重要,因为它可以处理非方阵,是低秩近似的经典基础。
定义与记号
特征值和特征向量满足:
A v = λ v其中 v 是特征向量,λ 是特征值。
SVD 将矩阵分解为:
A = U Σ V^T其中:
U表示输出空间中的正交方向。V表示输入空间中的正交方向。Σ中的奇异值表示对应方向的重要程度。
直观解释
特征分解关心矩阵作用后方向不变的特殊向量。SVD 则更一般:它把矩阵看成先在输入空间选择方向,再按奇异值缩放,最后映射到输出空间的方向。
基本性质
- 特征分解主要适用于满足条件的方阵,SVD 可用于任意矩阵。
- 奇异值越大,表示该方向对矩阵作用的贡献越大。
- 保留最大的若干奇异值,可以得到低秩近似。
- 分解结果有助于分析结构,但不等于直接解释出人类语义。
示例
低秩 SVD 近似:
A ≈ U_r Σ_r V_r^T其中只保留最大的 r 个奇异值。这说明矩阵的大部分作用可能由少数主方向近似表达。
在模型分析中,可以对某层激活矩阵做 SVD,观察表示是否集中在少数方向上。
常见误解
- 误解:SVD 是训练大模型必须执行的步骤。
- 正确理解:SVD 更多用于分析、压缩或理解表示结构。
- 误解:最大奇异值方向一定对应某个明确语义。
- 正确理解:它只表示线性代数意义上的主要方向,不保证人类可解释。
- 误解:低秩近似是无损的。
- 正确理解:除非原矩阵本身秩不超过
r,否则低秩近似通常有信息损失。
- 正确理解:除非原矩阵本身秩不超过