为何感觉“知识蒸馏”这几年没有什么成果?
2023-05-11 阅读 11
感觉“知识蒸馏”这几年成果不明显,主要有几方面原因:一是大模型时代把关注点拉向规模化预训练和微调,蒸馏成了工程化的细节而非研究热点;二是蒸馏本身增益呈递减,老师比学生强太多反而难以转移知识,设计好的损失、温度等超参越来越依赖经验;三是评测和任务在变,很多新任务上蒸馏效果不如剪枝、量化或架构优化那样直接可见;四是负面或小改进容易不被发表,给人“无进展”的错觉。总体上蒸馏还在用,但更偏向工程优化和结合其他压缩手段,难以再出现早期那种爆炸性成果。
更新于 2025年12月06日