为什么现在的LLM都是Decoder only的架构？-有趣的事

首页

为什么现在的LLM都是Decoder only的架构？

2023-08-21 阅读 18

主要原因是自回归（causal）训练目标简单且与生成任务一致，decoder-only 在预训练和推理时用同一网络，省去 encoder–decoder 之间的交互开销，便于并行、内存和流水线优化，工程实现更简单且更易扩展。再加上早期大规模实践（如 GPT 系列）验证了效果，使这种架构成为主流选择。

更新于 2025年12月24日

陕ICP备13008705号-1 Chat Gpt Api