类似chatGPT是怎么测试的?达到什么样的标准能进行内测或公测呢?
2023-08-15 阅读 22
类似系统的测试通常分阶段进行:先做离线自动评估(训练损失、困惑度、在通用基准集如GLUE/SuperGLUE、MMLU、代码评测集等的表现)、再做工程性能测试(延迟、吞吐、内存与可伸缩性)、然后是人工评估与对抗性测试(标注人员按有用性、准确性、连贯性、安全性打分,红队模拟滥用与诱导攻击),还要做安全过滤、隐私与合规检查。能进入内测通常需要在关键基准上优于基线或满足既定目标、人工偏好或准确率达到内部阈值、安全性与滥用率在可控范围内、基础设施足够稳定且可回滚。要进入公测则要求更严格:通过外部或第三方红队审查、法律合规与隐私评估、完善的监控与风控策略、用户反馈与快速回退机制,以及在更广泛场景下的可接受性与多样性验证。正式上线通常采用灰度/金丝雀发布并保持持续监测和迭代。
更新于 2025年12月24日