大语言模型的攻防手段还有哪些能做的新方向?
2023-07-14 阅读 1
可以从几个方向深入:构建更现实化、可重复的红队与对抗评估框架以发现脆弱性(侧重评估而非教人攻击)、发展形式化与认证方法为关键安全属性提供数学保证、把因果推断与可解释性方法用于理解失败模式、研究在线/持续学习下的稳健性与数据毒防护、建立高效的异常输入检测与溯源机制、针对多模态与生成链条设计联合防护、在联邦和隐私保护场景下研究攻防博弈,以及把人类反馈、可控性与可审计机制整合到部署流程中以提升实战可用的防御能力。
更新于 2025年12月21日