概念界定

特征分解和奇异值分解(SVD)都是分析矩阵结构的方法。它们试图找出矩阵作用中最重要的方向和尺度,常用于理解主方向、降维、低秩近似、表示分析和模型压缩。

背景与问题

在大模型中,权重矩阵和激活矩阵通常维度很高。为了理解这些矩阵是否存在冗余、是否集中在少数方向、能否被压缩,需要使用矩阵分解工具。SVD 尤其重要,因为它可以处理非方阵,是低秩近似的经典基础。

定义与记号

特征值和特征向量满足:

A v = λ v

其中 v 是特征向量,λ 是特征值。

SVD 将矩阵分解为:

A = U Σ V^T

其中:

  • U 表示输出空间中的正交方向。
  • V 表示输入空间中的正交方向。
  • Σ 中的奇异值表示对应方向的重要程度。

直观解释

特征分解关心矩阵作用后方向不变的特殊向量。SVD 则更一般:它把矩阵看成先在输入空间选择方向,再按奇异值缩放,最后映射到输出空间的方向。

基本性质

  • 特征分解主要适用于满足条件的方阵,SVD 可用于任意矩阵。
  • 奇异值越大,表示该方向对矩阵作用的贡献越大。
  • 保留最大的若干奇异值,可以得到低秩近似。
  • 分解结果有助于分析结构,但不等于直接解释出人类语义。

示例

低秩 SVD 近似:

A ≈ U_r Σ_r V_r^T

其中只保留最大的 r 个奇异值。这说明矩阵的大部分作用可能由少数主方向近似表达。

在模型分析中,可以对某层激活矩阵做 SVD,观察表示是否集中在少数方向上。

常见误解

  • 误解:SVD 是训练大模型必须执行的步骤。
    • 正确理解:SVD 更多用于分析、压缩或理解表示结构。
  • 误解:最大奇异值方向一定对应某个明确语义。
    • 正确理解:它只表示线性代数意义上的主要方向,不保证人类可解释。
  • 误解:低秩近似是无损的。
    • 正确理解:除非原矩阵本身秩不超过 r,否则低秩近似通常有信息损失。

相关概念