基本信息

TODO

  • 阅读论文原文,整理 Transformer encoder-decoder、scaled dot-product attention、multi-head attention、FFN、residual 和 LayerNorm。
  • 回填 sinusoidal position encoding 的公式、动机和局限。
  • 对照现代 decoder-only LLM,区分原始 Transformer 与 GPT/LLaMA 类架构的差异。