为什么大模型输入输出往往只有2K, 4K token?
2023-06-14 阅读 26
大型模型的输入输出往往只有2K或4K token,是因为在训练和推理过程中,处理长序列的计算成本非常高,会导致模型的训练和推理速度变慢,同时也会增加模型的内存使用量。此外,较长的输入序列也会导致梯度消失或梯度爆炸等问题,影响模型的训练效果。因此,为了达到更好的性能和效果,研究人员通常会限制输入输出序列的长度,以保证模型的高效性和稳定性。同时,也可以通过一些技术手段,如截断、缩放等方式来处理较长的输入序列。
更新于 2023年06月14日