GPT 的性能如何评估？-有趣的事

首页

GPT 的性能如何评估？

2024-01-13 阅读 68

评估GPT性能通常采用自动指标、基准测试和人工评估相结合的方式。自动指标常用困惑度（perplexity）、准确率/精确召回、BLEU/ROUGE、BERTScore等；基准测试用MMLU、GSM8K、HumanEval、SQuAD、HellaSwag等分别检验推理、算术、代码和问答能力。人工评估侧重流畅性、相关性、事实性、有用性与安全性，还会做对抗样本和泛化测试、置信度校准与在线监控。要注意自动指标和基准都有局限（如泄露或不能全面反映可用性），因此推荐多维度混合评估并持续迭代。

更新于 2026年01月02日

陕ICP备13008705号-1 Chat Gpt Api