知识蒸馏不是魔法，是大模型教小模型的三种方法

知识蒸馏的核心逻辑很直观：大模型（Teacher）教小模型（Student）学习。大模型知道的多，但推理慢、部署贵；小模型部署快、成本低，但能力不够。蒸馏就是让小模型模仿大模型的输出分布，在保持接近大模型性能的前提下大幅缩小模型体积。

蒸馏的核心技术有三种。第一种是黑盒蒸馏，只使用 Teacher 模型的输出 logits 作为训练信号。Student 学习 Teacher 的概率分布而不仅仅是硬标签，能学到更多细粒度的知识。第二种是白盒蒸馏，连 Teacher 的中间层特征也一并学习。Student 不仅学最终答案，还学 Teacher 的推理过程。第三种是数据蒸馏，用 Teacher 生成大量合成数据来训练 Student。适用于 Teacher 不开源或无法获取中间层的情况。

选择哪种蒸馏方式取决于你的约束条件。如果只能 API 调用 Teacher，用黑盒蒸馏。如果能拿到 Teacher 模型，白盒蒸馏效果更好。如果数据不足，用数据蒸馏。

字节笔记本

知识蒸馏不是魔法，是大模型教小模型的三种方法