Compression 模块负责整理模型压缩方法,包括剪枝、蒸馏、低秩压缩和与推理部署相关的压缩取舍。 Notes 模型压缩 Pruning Distillation for Inference Low-rank Compression