Rank and Low-Rank Approximation

概念界定

矩阵的秩刻画矩阵中线性独立信息的数量。低秩近似试图用较少的独立方向近似原矩阵，是理解 LoRA、参数高效微调、矩阵压缩和表示冗余的重要基础。

大模型包含大量高维权重矩阵，但并不是所有任务都需要修改这些矩阵的全部自由度。经验上，许多下游任务的参数更新可能集中在较低维的子空间中。低秩思想为“用较少参数有效改变模型行为”提供了线性代数视角。

矩阵 W ∈ R^{d_in × d_out} 的秩可以理解为它包含的独立方向数量。

低秩分解形式：

W ≈ A B
A ∈ R^{d_in × r}
B ∈ R^{r × d_out}

当 r << min(d_in, d_out) 时，A 和 B 的参数量远小于原矩阵。

如果一个矩阵的作用主要集中在少数方向上，就可以用这些主要方向近似原矩阵。低秩近似不是声称原矩阵没有复杂性，而是尝试保留最重要的变化方向。

LoRA 的核心形式：

W' = W + ΔW
ΔW = A B

其中原始权重 W 冻结，只训练低秩矩阵 A 和 B。这样可以用较少参数适配下游任务。

参数量对比：

Full update: d_in * d_out
LoRA update: d_in * r + r * d_out

当 r 很小时，训练参数大幅减少。