波形智能发布可进行超长文本生成的 RecurrentGPT,其技术原理是什么?
2023-06-15 阅读 4
大致原理是把 Transformer 的强表达力和一种“递归记忆”机制结合起来。运行时把长文本分块处理,每块用常规模型建模本地上下文,同时把这一块的压缩表示或隐状态保存为长期记忆,下一块输入时把这些记忆作为额外上下文或用于初始化并通过一个状态更新网络融合,从而无需对全部历史做全局自注意力,计算和内存开销显著下降。训练上通常用分块训练、记忆重构或预测类损失,确保压缩表示保留长期依赖信息。总体思路是局部精细建模加上跨块的记忆传递,达到可扩展的超长文本生成能力。
更新于 2025年12月14日