TODO: 说明 weight-only quantization 的目标、权重量化/激活不量化、推理显存收益和计算 trade-off。