GPT-3是第一个千亿大语言模型吗?
2023-07-31 阅读 12
严格来说不完全是第一个。GPT-3(2020)以1750亿参数的密集自回归模型在公开研究和开发者社区里首次把“百亿到千亿”级别的密集大模型推上风口,影响最大。但在同期或之前也有像谷歌的稀疏专家模型(例如 GShard 报告过数百亿到数百亿级别、后来 Switch Transformer 更大)以及企业内部未公开的超大模型存在,所以能否算“第一个”取决于你把重点放在“密集/稀疏”、“公开发表/私有”还是“被广泛使用”。
更新于 2025年12月23日