基本信息
- Title: Attention Is All You Need
- Source type: paper
- Related topic notes: Transformer, Attention, Multi-Head Attention, Sinusoidal Position Encoding
TODO
- 阅读论文原文,整理 Transformer encoder-decoder、scaled dot-product attention、multi-head attention、FFN、residual 和 LayerNorm。
- 回填 sinusoidal position encoding 的公式、动机和局限。
- 对照现代 decoder-only LLM,区分原始 Transformer 与 GPT/LLaMA 类架构的差异。