中文通用大模型基准测试发布,中文大模型在不同任务上的表现如何?
2023-05-11 阅读 90
总体来看,基准测试显示:在中文理解与生成类任务(阅读理解、问答、摘要、翻译)上多数大模型能给出流畅且可用的答案,但事实性和细节准确率还不稳定,容易出现偏差或编造;在复杂逻辑推理、多步数学题、抽象常识推断上普遍较弱,出错率高;代码生成和专业领域表现差异大,受模型规模与训练数据影响明显;长上下文保持、一致性与对抗鲁棒性仍是薄弱环节。总体趋势是规模更大、训练与指令调优更充分的模型在大多数任务上表现更好。
更新于 2025年12月05日