为什么刚过去两天,GPT-o1 的热度就消失了?

2024-11-19 阅读 10
更新于 2024年11月21日
我认为o1火了两天就热度不再的主要原因,还是它本身的性能并没有宣传中的那样“amazing”,虽然新增了推理过程,但“智商”并没有啥质的飞跃。
单就数学解题能力来说,o1相较于GPT-4o,确实有所进步。我用一道《九章算术》里面的相遇问题分别“考验”了o1和GPT-4o:
今有垣厚十尺,两鼠对穿。大鼠日一尺,小鼠亦日一尺。大鼠日自倍,小鼠日自半。问何日相逢,各穿几何?
首先值得肯定的是,两个模型都看懂了题目。但是GPT-4o算着算着就开始犯蠢,然后“一本正经”的给出了错误答案:
o1则是经过不到1分钟的思考,规规矩矩的给出了正确答案:
只是能多解对几道数学题,就真正意味着智能的提升吗?
有人用K-SAT问题对o1进行测试,想要评估模型在不同复杂度(α值)下的表现。
K-SAT问题,全称为K-Satisfiability问题,是一个著名的计算机科学中的决策问题,属于布尔可满足性问题(Boolean Satisfiability Problem,简称SAT)的一种。在这个问题中,你需要确定一个布尔表达式是否有解,即是否存在一种变量赋值方式使得整个表达式为真。
用一个简单的例子解释一下这个K-SAT问题: