想学习大语言模型(LLM),应该从哪个开源模型开始?
2023-07-06 阅读 2
建议先从GPT-2入手,原因是模型小、教程和实现多、能在普通机器上跑通训练与推理流程,便于理解架构和调参。熟悉后可以尝试EleutherAI 的 GPT‑Neo(1.3B)或 GPT‑J(6B)体会中等规模模型的训练与微调;如果有 24GB+ GPU 想体验更接近最新效果的开源大模型,可看 LLaMA 2(7B)及其指令调优衍生版(如 Vicuna/Alpaca)。学习工具优先用 Hugging Face Transformers、datasets,微调可从小规模 LoRA/PEFT 开始。
更新于 2025年12月20日