TODO: 说明推理 batch size、并发、continuous batching、显存限制和吞吐/延迟 trade-off。