为什么刚过去两天,GPT-o1 的热度就消失了?

2024-11-19 阅读 27

GPT-01在刚发布时可能会引起很大的关注和讨论,但随着时间的推移,人们的注意力往往会转移到其他新闻或话题上。这种现象在当前的信息爆炸时代尤为常见,新闻和话题的热度往往持续时间很短。因此,GPT-01的热度消失并不意味着它失去了重要性,只是人们的关注点发生了变化。

更新于 2024年11月21日
我认为o1火了两天就热度不再的主要原因,还是它本身的性能并没有宣传中的那样“amazing”,虽然新增了推理过程,但“智商”并没有啥质的飞跃。
单就数学解题能力来说,o1相较于GPT-4o,确实有所进步。我用一道《九章算术》里面的相遇问题分别“考验”了o1和GPT-4o:
今有垣厚十尺,两鼠对穿。大鼠日一尺,小鼠亦日一尺。大鼠日自倍,小鼠日自半。问何日相逢,各穿几何?
首先值得肯定的是,两个模型都看懂了题目。但是GPT-4o算着算着就开始犯蠢,然后“一本正经”的给出了错误答案:
o1则是经过不到1分钟的思考,规规矩矩的给出了正确答案:
只是能多解对几道数学题,就真正意味着智能的提升吗?
有人用K-SAT问题对o1进行测试,想要评估模型在不同复杂度(α值)下的表现。
K-SAT问题,全称为K-Satisfiability问题,是一个著名的计算机科学中的决策问题,属于布尔可满足性问题(Boolean Satisfiability Problem,简称SAT)的一种。在这个问题中,你需要确定一个布尔表达式是否有解,即是否存在一种变量赋值方式使得整个表达式为真。
用一个简单的例子解释一下这个K-SAT问题:
假设你邀请了三位朋友:小明、小李和大花。小明告诉你,如果小李来,他就不来;小李说如果大花来,他就不来;大花则表示,除非小明或小李至少有一个来,否则她不会参加。
现在,你的任务是找出是否有一种邀请组合,可以满足所有人的要求。在K-SAT问题中,相当于每个人的条件是一个子句,需要找到满足所有子句的解决方案。
在这个例子中,我们可以找到满足所有条件的解决方案:不邀请小李,只邀请小明和大花。这样,小明没有理由不来(因为小李不来),大花也会来(因为至少小明来了)。
如果将这种情景转化为K-SAT问题,就是寻找一种赋值方法(即谁来、谁不来),使得所有的“规则”或条件都得到满足。在更复杂的情况下,例如当有更多的人和更多的条件时,找到这样的解决方案可能会变得非常复杂,而这正是计算机科学中K-SAT问题常常处理的类型。
分别用2-SAT、3-SAT和4-SAT问题测试o1-preview,结果非常有意思:
图中的绿线是o1自己认为自己给出了解答,并自己进行了满足赋值验证(也就是认为自己做对了)的比例,蓝线是作者对于o1给出的解答进行验证后的真正满足赋值的比例,橙色的线是Pycosat求解器得到的满足赋值的比例,Pycosat是PicoSAT求解器的Python接口,使用了一些高级的启发式算法来快速找到可满足的赋值或证明问题不可满足。横轴α表示子句与变量的比率,从左到右意味着越来越难。
对于2-SAT问题,o1认为自己从易到难全都做对了!可是实际上从α=0.7开始,o1就认为错了,它给出的结果开始出错……
对于3-SAT问题,o1再次认为自己从易到难全都做对了!可是从图中可以看出,这回就更离谱了,从开始到最后,o1并没有一点做对……
对于4-SAT问题,o1终于不再那么自信,但是它认为自己做对的准确率仍然远远高于实际情况……
也就是说,o1加了一层推理的“壳”之后,性能确实有所提升,尤其是对于数学问题和编程,准确率的确高于GPT-4o。但是距离宣传中所谓的“能够达到专业博士水平”,还是有着相当长的距离的,毕竟它连应对K-SAT问题的专业工具Pycosat都比不过。
所以我们暂时完全不用担心AI代替人类统治地球这样可怕的事情……