有哪些令你印象深刻的魔改transformer?
2023-05-13 阅读 10
比较有代表性的魔改包括:Reformer(LSH attention + 可逆层,省内存)、Linformer(低秩近似)、Performer(FAVOR+线性注意力)、Longformer/BigBird(滑窗+全局/随机稀疏注意力,适合长序列)、Transformer-XL/Compressive Transformer(相对位置与长期记忆)、Sparse Transformer(稀疏注意力)、Switch/GShard(MoE 条件计算)、Routing Transformer(基于聚类的稀疏注意力)、Perceiver(跨模态降维注意力)、ViT/DeiT(视觉Transformer)、T5(统一text-to-text框架)、REALM/RAG(检索增强)。这些改动各自针对效率、长序列或跨模态等问题做了不同权衡。
更新于 2025年12月09日