首页
为什么现在的LLM都是Decoder only的架构?
2023-08-21 阅读 11
主要原因是自回归(causal)训练目标简单且与生成任务一致,decoder-only 在预训练和推理时用同一网络,省去 encoder–decoder 之间的交互开销,便于并行、内存和流水线优化,工程实现更简单且更易扩展。再加上早期大规模实践(如 GPT 系列)验证了效果,使这种架构成为主流选择。
更新于 2025年12月24日