模型蒸馏

背景

模型蒸馏(Model Distillation)这一理论最早由​​Geoffrey Hinton​​团队在​​2015年​​的论文《Distilling the Knowledge in a Neural Network》中正式提出,其核心思想是通过“教师-学生”框架将复杂大模型(教师模型)的知识迁移到轻量小模型(学生模型)中,以平衡性能与效率。

模型蒸馏的发展与应用概况​​

​### ​理论提出与早期应用(2015年)​​ Hinton团队首次引入“软标签”(Soft Targets)和“温度参数”(Temperature)的概念,通过软化教师模型的输出概率分布,使学生模型学习更丰富的类别间关系信息。 早期应用集中在计算机视觉(如ImageNet分类)和自然语言处理(如BERT压缩),例如DistilBERT通过蒸馏将BERT的参数量减少40%,推理速度提升60%。

​### ​大模型时代的广泛采用(2020年后)​​ 随着GPT-3、PaLM等千亿参数大模型的涌现,蒸馏技术成为解决计算成本高、部署难的关键工具。例如: ​​DeepSeek​​通过蒸馏将70B参数模型压缩为32B版本,推理延迟从850ms降至150ms,显存占用从320GB减少至8GB,适用于边缘设备。 ​​Qwen系列​​(如Qwen-3)采用蒸馏技术训练小参数模型,继承大模型的多语言和多任务能力

从上面这些介绍来看,模型蒸馏最开始被提出是用来做大模型到轻量小模型的知识迁移的,但当我们理解了蒸馏的原理之后我们不难发现,蒸馏可以用与几乎所有模型,其本质就是性能强但效率低的大型模型到牺牲部分性能但大幅提升效率的小型模型的迁移。