TODO: 说明 attention kernel 优化,包括 tiling、memory bandwidth、fused kernel、prefill/decode 阶段差异。