LLM大语言模型当中,除了苏神提出的RoPE还有哪些比较好的位置编码?
2024-03-13 阅读 105
除了RoPE,常见且效果不错的位置编码有几类:传统绝对位置编码(正弦或可学习),相对位置表示(如Shaw等提出的RPR和Transformer-XL/XLNet的相对改进),T5风格的相对位置偏置(按相对距离学习的bias),ALiBi(线性距离偏置,参数少且对长序列外推友好),以及DeBERTa的解耦位置-内容表示(disentangled attention),还有一些连续/核化或混合方案用于改善泛化与效率。每种方法在外推能力、参数量和实现复杂度上有不同权衡。
更新于 2026年01月03日