GPT 的性能如何评估?
2024-01-13 阅读 14
评估GPT性能通常采用自动指标、基准测试和人工评估相结合的方式。自动指标常用困惑度(perplexity)、准确率/精确召回、BLEU/ROUGE、BERTScore等;基准测试用MMLU、GSM8K、HumanEval、SQuAD、HellaSwag等分别检验推理、算术、代码和问答能力。人工评估侧重流畅性、相关性、事实性、有用性与安全性,还会做对抗样本和泛化测试、置信度校准与在线监控。要注意自动指标和基准都有局限(如泄露或不能全面反映可用性),因此推荐多维度混合评估并持续迭代。
更新于 2026年01月02日