ID: EXT_001
LLM.int8():Transformers 大规模 8 位矩阵乘法
Tim Dettmers 与 Hugging Face 的这篇经典合作文章详细介绍了如何将大模型显存占用减半而不损失精度。其核心在于混合精度分解:将绝大多数参数进行 int8 量化,而对异常值(Outliers)保留 fp16 计算。这对我们在边缘端部署小参数模型极具参考价值。
BLOOM-176B (FP16): ~350GB VRAM
BLOOM-176B (INT8): ~175GB VRAM
Performance Degradation: 0.0%