基本信息
- Title: Longformer: The Long-Document Transformer
- Source type: paper
- Related topic notes: Sliding Window Attention, Long-context Training
TODO
- 阅读论文原文,整理 sliding window attention 与 global attention 的组合方式。
- 回填局部窗口 attention 在长文档建模中的复杂度收益与信息访问边界。
- 对照 BigBird 和现代 long-context decoder-only LLM 的差异。