搜索
❯
2026年4月05日1分钟阅读
TODO: 说明 attention kernel 优化,包括 tiling、memory bandwidth、fused kernel、prefill/decode 阶段差异。