首页
如何看待安全研究人员发现绕过大语言模型安全对齐机制的系统性方法?
2023-07-28 阅读 0
这种发现既重要又令人担忧:重要在于它揭示了模型安全对齐的系统性薄弱点,为改进防护提供了方向;令人担忧在于方法一旦扩散,会被滥用。应对上需要研究者负责任披露、模型开发者快速修补和部署防护、行业内的协作与持续红队测试,以及多层次的检测与审计手段,做到发现—修补—验证闭环,降低风险。
更新于 2025年12月22日