如何有效减少GPT模型所需的多次inference产生的kv-cache对芯片的损耗？-有趣的事

如何有效减少GPT模型所需的多次inference产生的kv-cache对芯片的损耗？

2024-03-15 阅读 20

更新于 2024年11月21日