大模型推理优化与部署,从解码链路、KV Cache、Attention 加速到量化、Serving、压缩和性能评测。

Inference Pipeline

Deployment and Optimization

  • Quantization — weight-only、AWQ、GPTQ、FP8 和 KV Cache 量化。
  • Serving Systems — vLLM、continuous batching、请求调度和 PD 分离。
  • Compression — 模型压缩、剪枝、蒸馏和低秩压缩。
  • Performance — 延迟、吞吐、TTFT、TPOT 和 benchmark。

此文件夹下有7条笔记。