claude支持超长上下文的原理是什么?
2023-08-20 阅读 17
Claude 支持超长上下文,核心靠两类技术:一是把传统的二次方注意力改造为更高效的机制,比如块稀疏(block‑sparse)/局部滑动窗口、线性化注意力或分层注意力,配合 key‑value 缓存和段级递归,使计算和内存近似线性增长;二是把远端内容压缩或外部化,比如对早期上下文做层级摘要/压缩记忆、用检索式外部记忆存取旧信息,减少必须直接注意的长度。此外还有训练上用长序列数据、以及工程优化(FlashAttention、内存高效实现、模型并行/流水线等)来支撑实际的超长上下文应用。
更新于 2025年12月24日