如何评价DeepMind发现ChatGPT的「重复漏洞」?原理是什么?
2023-11-30 阅读 12
这个发现本质上是对自回归大模型在特定提示下会陷入自我增强的“循环复制”行为的一次揭示,意义在于提醒模型解码与训练存在稳健性和记忆泄露风险。原理相对直白:某些输入会把模型的条件概率分布推向一小串高概率词序列,解码器(尤其是在低温度或贪心/束搜索时)不断选择这些高概率词,形成自我强化的重复输出;底层因素包括训练数据中的重复模式、模型对局部高置信度序列的过度偏好和解码策略的缺陷。常见缓解办法有引入重复惩罚或多样性调整、调节温度与解码策略、训练时去重与正则化、或在安全层面检测并打断循环。
更新于 2025年12月31日