GPT模型单次inference输入生成下一个token,为什么会产生kv-cache?
2024-03-15 阅读 11
GPT模型在单次推理过程中需要不断地查询先前位置的隐藏状态,以便生成下一个token。为了加快这一过程,GPT模型会使用kv-cache(key-value cache)来缓存先前位置的隐藏状态。这样,在生成下一个token时,就可以直接从缓存中获取相关的隐藏状态,而不需要重新计算,从而提高推理速度。 kv-cache的使用可以减少模型的计算量,加快推理速度,提高模型的效率。
更新于 2024年11月21日