基本信息
- Title: Big Bird: Transformers for Longer Sequences
- Source type: paper
- Related topic notes: Sliding Window Attention, Attention, Long-context Training
TODO
- 阅读论文原文,整理 sparse attention pattern 如何组合局部、全局和随机连接。
- 回填长序列 attention 中复杂度、连通性和表达能力的取舍。
- 对照 Longformer、Sliding Window Attention 和 Hybrid Attention。