Parameter Sharing and Weight Tying

概念界定

参数共享是让模型的不同部分使用同一组参数，权重绑定是参数共享的一种形式。在语言模型中，常见做法是将输入 embedding 矩阵和输出 LM Head 权重绑定。

语言模型既需要把 token id 映射为输入向量，也需要把 hidden state 映射回词表 logits。这两个过程都和词表表示有关，因此可以共享权重，减少参数并增强输入输出表示的一致性。

输入 embedding：

E: [V, D]

输出头通常可写为：

W_vocab: [D, V]

权重绑定时，可以使用：

W_vocab = E^T

输入阶段问：“这个 token 应该映射到哪个向量？”输出阶段问：“这个 hidden state 更像哪个 token 的向量？”权重绑定让这两个问题共享同一套 token 表示空间。