有哪些关于大语言模型编译优化相关的较新的论文?
2024-12-19 阅读 87
可以看几类近期工作:FlashAttention(Dao et al., 2022)和 FlashAttention2(2024)针对 attention 核做的 IO/内存优化,GPTQ(Frantar 等, 2023)、QLoRA(Dettmers 等, 2023)和 AWQ 等关于后训练量化与低精度微调的论文,FlexGen(2023)与 Alpa(近年工作)讨论内存分层与自动并行调度,Triton/TVM/XLA 系列和 DeepSpeed/ZeRO、FasterTransformer 则偏工程化的编译与推理优化实现。建议在 arXiv、NeurIPS/ICML/OSDI 等会议或对应开源库里检索这些关键词以获取原文与实现。
更新于 2026年01月04日