🍊 Latent Atlas 🍉

Home

❯

Inference

❯

Serving Systems

Serving Systems

2026年4月12日1分钟阅读

Serving Systems 模块负责整理大模型在线服务系统,包括 vLLM、continuous batching、请求调度、并行 serving 和 PD 分离等。

Notes

  • vLLM
  • Continuous Batching
  • Request Scheduling
  • Tensor Parallel Serving
  • Disaggregated Serving

此文件夹下有5条笔记。

  • 2026年4月18日

    Disaggregated Serving

    • serving
    • disaggregated-serving
  • 2026年4月18日

    Request Scheduling

    • serving
    • scheduling
  • 2026年4月18日

    Tensor Parallel Serving

    • serving
    • tensor-parallel
  • 2026年4月18日

    vLLM

    • inference
    • serving
    • pytorch
  • 2026年4月12日

    Continuous Batching

    • serving
    • batching

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026