火爆如何看待微软最新论文揭秘ChatGPT参数量只有20B?
2023-10-31 阅读 12
可以把这个结论当作一种有趣但不一定全面的解释。论文里说的“20B”很可能指某种有效参数或特定子网(比如参数共享、稀疏Mixture-of-Experts、LoRA/adapter、量化后等价参数),而不是把所有部署时的组件、检索/缓存、系统提示和流水线算进去的“整机规模”。另外,测量方法和假设不同也会导致估计偏差。换句话说,这类结论提示了模型设计上更高效的路线,但不能单靠一个参数量数字来评判实际能力,还是要看具体应用表现和可重复的对比测试。
更新于 2025年12月28日