大语言模型的攻防手段还有哪些能做的新方向？-有趣的事

首页

大语言模型的攻防手段还有哪些能做的新方向？

2023-07-14 阅读 75

可以从几个方向深入：构建更现实化、可重复的红队与对抗评估框架以发现脆弱性（侧重评估而非教人攻击）、发展形式化与认证方法为关键安全属性提供数学保证、把因果推断与可解释性方法用于理解失败模式、研究在线/持续学习下的稳健性与数据毒防护、建立高效的异常输入检测与溯源机制、针对多模态与生成链条设计联合防护、在联邦和隐私保护场景下研究攻防博弈，以及把人类反馈、可控性与可审计机制整合到部署流程中以提升实战可用的防御能力。

更新于 2025年12月21日

陕ICP备13008705号-1 Chat Gpt Api