首页
如何看待 OpenAI 发布 o1 系列模型?
2024-11-19 阅读 11
OpenAI发布o1系列模型代表着他们在继续推动自然语言处理技术的发展。这些模型可能具有更高的性能和更广泛的应用领域,有助于改善人们在语言理解和生成方面的体验。然而,随着模型规模的增大,也需要更多的计算资源和数据来支持其训练和部署,同时也需要考虑到模型带来的潜在风险和挑战,比如隐私问题和社会影响等。因此,我们应该审慎地评估和利用这些新模型,以确保它们能够为社会带来积极的影响。
更新于 2024年11月21日
可以肯定是OpenAI最新出的o1大模型是目前推理能力最强的大模型。由于它引入了自动化COT能力,在数学推理、coding能力上比现有的大模型都要强上许多。
数学能力大幅提升:在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而o1推理模型的得分为 83%。
Coding能力相比于gpt4o也有明显提升但是由于引入了模型的反思机制,整体的推理速度明显比之前的所有模型要慢得多:
对于同样一个问题,虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都正确回答,并且 o1-mini 达到答案的速度大约是 3-5 倍。
在以前我们可以利用COT(思维链)技术,来让模型举一反三。在大模型的应用中,COT的方法能够激发大模型预训练过程中的先验知识,更好的帮助模型理解人类输入的问题。举个例子,在下面的例子中,大模型基于问题是不能够给出正确的答案,它的效果往往会比较差
但是如果你把人类的思维方式给到大模型,那么他就会通过你给出的推导例子,正确回答出你提到的问题。
上述过程存在一个主要缺陷,即需要人工大量编写COT规则。对于一类问题尚可,但若需为每个问题编写推导逻辑,这显然不可行。因此,OpenAI借鉴AlphaGo的MCTS(蒙特卡洛树搜索)和强化学习方法,使LLM能快速找到CoT路径,而且这个过程不需要人工进行干预,模型即可自动生成。
在实测o1大模型的coding能力的时候,发现确实提升了较大的幅度。
这里拿了leetcode中“第4151场周赛”题目进行测试,选择了最困难的题目:
https://leetcode.cn/problems/minimum-number-of-valid-strings-to-form-target-ii/