量化模块负责整理推理中的低精度表示,包括 weight-only quantization、AWQ、GPTQ、FP8 和 KV Cache 量化。 Notes 量化 Weight-only Quantization AWQ GPTQ FP8 KV Cache Quantization