ByteNoteByteNote

字节笔记本

2026年5月30日

知识蒸馏不是魔法,是大模型教小模型的三种方法

API中转
¥120

知识蒸馏的核心逻辑很直观:大模型(Teacher)教小模型(Student)学习。大模型知道的多,但推理慢、部署贵;小模型部署快、成本低,但能力不够。蒸馏就是让小模型模仿大模型的输出分布,在保持接近大模型性能的前提下大幅缩小模型体积。

蒸馏的核心技术有三种。第一种是黑盒蒸馏,只使用 Teacher 模型的输出 logits 作为训练信号。Student 学习 Teacher 的概率分布而不仅仅是硬标签,能学到更多细粒度的知识。第二种是白盒蒸馏,连 Teacher 的中间层特征也一并学习。Student 不仅学最终答案,还学 Teacher 的推理过程。第三种是数据蒸馏,用 Teacher 生成大量合成数据来训练 Student。适用于 Teacher 不开源或无法获取中间层的情况。

选择哪种蒸馏方式取决于你的约束条件。如果只能 API 调用 Teacher,用黑盒蒸馏。如果能拿到 Teacher 模型,白盒蒸馏效果更好。如果数据不足,用数据蒸馏。

分享: