GPT等decoder-only transformer为什么叫causal transformer?
2023-11-23 阅读 34
GPT和其他decoder-only transformer模型被称为"causal transformer",是因为它们在生成输出时遵循了因果关系。在这些模型中,每个输出位置的预测只依赖于其之前的输入和输出位置,而不依赖于其之后的位置。这种因果关系的约束使得模型能够生成连贯的输出序列,与输入序列的顺序一致。
具体来说,在训练阶段,模型会通过自回归的方式逐个位置地生成输出。在生成每个位置的预测时,模型只能访问该位置之前的输入和输出,而不能访问之后的信息。这种因果关系的限制确保了模型在生成输出时不会借助未来的信息,从而更好地模拟了自然语言的生成过程。
因此,由于GPT和其他decoder-only transformer模型在生成输出时遵循因果关系,它们被称为"causal transformer"。
更新于 2023年11月23日