大语言模型合并有哪些主要的方法?
2024-04-10 阅读 19
常见的合并方法包括:输出级集成(ensemble),对多个模型的预测做加权投票或置信度融合;参数级合并(weight averaging),如直接线性平均、指数移动平均或基于Fisher/弹性权重的加权平均;适配器/低秩合并(LoRA、adapter fusion),把不同模型的适配器合并到同一基模型;知识蒸馏,用多个教师训练单一学生以吸收能力;专家路由(MoE),运行时按路由器组合不同专家;模型拼接或层替换(surgery),在架构匹配时替换或合并部分层。不同方法对架构、tokenizer、权重对齐和训练数据的要求不同,效果与稳定性也会差异较大。
更新于 2026年01月03日