TODO: 说明推理中的 tensor parallel、跨卡通信、单请求延迟和多卡吞吐权衡。