Code Llama-34B 已在 HumanEval 测试中击败 GPT-4,你对此有何看法?
2023-08-27 阅读 13
这件事值得关注但不宜过度解读。HumanEval 只评估特定类型的编程题,规模小且偏向短函数生成,结果容易受提示策略、解码温度、训练数据重叠和评测细节影响。Code Llama-34B 在这个基准上超过 GPT-4 表明开源大模型在代码生成上有明显进步,也说明较小模型在特定任务上能达到很高性价比,但不能据此断言其在鲁棒性、复杂项目推理、对话能力或安全性上全面优于 GPT-4。更有说服力的结论需要多基准、跨场景和真实工程评测。
更新于 2025年12月25日