首页
为什么刚过去两天,GPT-o1 的热度就消失了?
2024-11-19 阅读 77
GPT-01在刚发布时可能会引起很大的关注和讨论,但随着时间的推移,人们的注意力往往会转移到其他新闻或话题上。这种现象在当前的信息爆炸时代尤为常见,新闻和话题的热度往往持续时间很短。因此,GPT-01的热度消失并不意味着它失去了重要性,只是人们的关注点发生了变化。
更新于 2024年11月21日
我认为o1火了两天就热度不再的主要原因,还是它本身的性能并没有宣传中的那样“amazing”,虽然新增了推理过程,但“智商”并没有啥质的飞跃。
单就数学解题能力来说,o1相较于GPT-4o,确实有所进步。我用一道《九章算术》里面的相遇问题分别“考验”了o1和GPT-4o:
今有垣厚十尺,两鼠对穿。大鼠日一尺,小鼠亦日一尺。大鼠日自倍,小鼠日自半。问何日相逢,各穿几何?
首先值得肯定的是,两个模型都看懂了题目。但是GPT-4o算着算着就开始犯蠢,然后“一本正经”的给出了错误答案:
o1则是经过不到1分钟的思考,规规矩矩的给出了正确答案:
只是能多解对几道数学题,就真正意味着智能的提升吗?
有人用K-SAT问题对o1进行测试,想要评估模型在不同复杂度(α值)下的表现。
K-SAT问题,全称为K-Satisfiability问题,是一个著名的计算机科学中的决策问题,属于布尔可满足性问题(Boolean Satisfiability Problem,简称SAT)的一种。在这个问题中,你需要确定一个布尔表达式是否有解,即是否存在一种变量赋值方式使得整个表达式为真。
用一个简单的例子解释一下这个K-SAT问题:
假设你邀请了三位朋友:小明、小李和大花。小明告诉你,如果小李来,他就不来;小李说如果大花来,他就不来;大花则表示,除非小明或小李至少有一个来,否则她不会参加。
现在,你的任务是找出是否有一种邀请组合,可以满足所有人的要求。在K-SAT问题中,相当于每个人的条件是一个子句,需要找到满足所有子句的解决方案。
在这个例子中,我们可以找到满足所有条件的解决方案:不邀请小李,只邀请小明和大花。这样,小明没有理由不来(因为小李不来),大花也会来(因为至少小明来了)。
如果将这种情景转化为K-SAT问题,就是寻找一种赋值方法(即谁来、谁不来),使得所有的“规则”或条件都得到满足。在更复杂的情况下,例如当有更多的人和更多的条件时,找到这样的解决方案可能会变得非常复杂,而这正是计算机科学中K-SAT问题常常处理的类型。
分别用2-SAT、3-SAT和4-SAT问题测试o1-preview,结果非常有意思:
图中的绿线是o1自己认为自己给出了解答,并自己进行了满足赋值验证(也就是认为自己做对了)的比例,蓝线是作者对于o1给出的解答进行验证后的真正满足赋值的比例,橙色的线是Pycosat求解器得到的满足赋值的比例,Pycosat是PicoSAT求解器的Python接口,使用了一些高级的启发式算法来快速找到可满足的赋值或证明问题不可满足。横轴α表示子句与变量的比率,从左到右意味着越来越难。
对于2-SAT问题,o1认为自己从易到难全都做对了!可是实际上从α=0.7开始,o1就认为错了,它给出的结果开始出错……
对于3-SAT问题,o1再次认为自己从易到难全都做对了!可是从图中可以看出,这回就更离谱了,从开始到最后,o1并没有一点做对……
对于4-SAT问题,o1终于不再那么自信,但是它认为自己做对的准确率仍然远远高于实际情况……
也就是说,o1加了一层推理的“壳”之后,性能确实有所提升,尤其是对于数学问题和编程,准确率的确高于GPT-4o。但是距离宣传中所谓的“能够达到专业博士水平”,还是有着相当长的距离的,毕竟它连应对K-SAT问题的专业工具Pycosat都比不过。
所以我们暂时完全不用担心AI代替人类统治地球这样可怕的事情……
不过随着大模型的不断发展,有一点却是我们不可否认的,大模型能够帮助完成很多领域的体力活!而且这货不用休息,可以24*7不间断的一直干活,不管是乱七八糟的数据,还是懒得写的报告,它都可以一力搞定!可能有些小伙伴觉得自己不会编程,肯定没有办法享受这波儿大模型带来的红利,其实真不是!建议小伙伴们可以听一听知乎知学堂的AI方案解决专家免费公开课,听完就会发现,即使是不会编程的小白,也可以轻松指挥大模型干活,大佬会用很多实际的应用案例向我们展示大模型的“简单”和“实用”。入口在这里,直接听就可以⬇
AI进阶🔥AI技术原理+AI产品思维+项目实战¥0.00点我进阶课程会提供一些项目demo,这些代码经过简单的修修改改就可以直接移植到我们自己的个人项目中,无论是数据分析还是网页制作,或者搞定一份报告和PPT,都可以用基于大模型构建的agent轻松实现。
现在基于大模型构建的agent以及微调模型应用之广,已经超出我们普通人的想象,甚至连o1-preview都被质疑是在GPT系列的基础上用“推理链”微调得到的。
这倒真是“冤枉”o1了,它所应用的推理链方法和传统的预训练大模型还是有着显著差别的。
在问题解决方式上,推理链模仿人类的思考过程,将复杂问题分解为一系列中间步骤。这样就让模型在解决问题时展现出更接近人类的推理能力,而不再是仅仅依赖于统计模式进行匹配。
在计算资源分配方面,推理链允许模型根据问题的复杂程度动态调整所需的计算量。对于简单问题,模型可能只需要几个推理步骤;对于复杂问题,模型则需要生成更长的推理链。不同于传统模型对所有输入使用固定的计算资源,推理链显得更加灵活,更适宜处理不同难度的任务。
传统的机器学习模型通常都被称为“黑箱模型”,顾名思义,就是这些模型的决策过程是“黑”的,是难以被解释的。推理链可以提高模型输出的可解释性,通过那些详细的推理步骤,我们可以清楚了解模型是如何得出结论的,不仅有利于看清楚模型是从那一步开始错的,还能为进一步改进模型提供一些可能的方向。
此外,推理链方法可以通过少量示例学习(few-shot)来激发模型的推理能力。这种方法不需要大规模的标记数据集或复杂的微调过程,只需要在提示中包含几个带有推理步骤的示例来引导模型生成类似的推理链,有助于模型快速适应新的任务领域。
只是,就像o1的命名一样,这种完全基于推理链的模型目前只是“初代”,它的表现在某些情况下还不如已经成熟的预训练模型,仍然会“自信过头”,仍然会“胡说八道”,大模型的那些“坏毛病”o1可谓一个都不少。所以这种情况下,它怎么可能一直霸榜、一直受到关注呢……至于迭代几代后的oN能够达到怎样的高度,那就只能拭目以待了。
o1能力太强了,博士级别的智能了,我们老百姓用4o或者4o-mini就够用了,基本没什么工作非得要用o1,而且价格很贵,这不是给老百姓使用的AI
这个应该给搞科研的人用的,特别是高精尖的技术领域,特别是需要数学,推理的领域,反正我们老百姓,都讲不清楚用他来干啥。。。日常我们就生成个文章,PPT,视频,辅助做个数据分析,基本用不上他。
在我的应用里,使用GPT-4o-mini就够了,一个月2美元就可以了
先自证我有o1,不是卖课的,这个回答有一点点瑕疵,但是推理过程没有问题。
我觉得最主要的原因,是国内并没有多少真正在使用chatgpt的用户,订阅plus的更是少之又少,我估计国内真正订阅使用超过三个月的,不会超过十万人。
其次国内的同类型产品太多,其中影响里最大的是文心一言,虽然它的模型能力未必多好,但是热度就是很高,来自于百度指数:
显然大部分人对于AI都还处于非常非常初级的认知环节,更别提使用正版且付费的chatgpt了。
这些热度里,还有很多是卖课卖套壳网站的,而且还只停留在4o版本,显然o1的高成本高门槛(level5 api才可以调用o1)让这些网站根本无法接入。而且openai最近在打击共享账号的行为,存在异常同时登陆就要求修改密码。
所以o1的热度很快就散了,本来4o的热度就存在很多假象,4o还可以用套壳网站或者免费额度玩玩,o1根本使用不到,编造不出来。
GPT4之后很难有大的惊喜了,但依然无法掩盖o1的牛逼。今天又碰到1个BUG,只有o1答对!
事情是这样的,今天用bash写了行命令,用来批量删除目录下包含某子串的文件,发现不太好使。
于是问了下4o,4o上来就是一套敷衍的废话,权限问题、文件占用...,不能说不对,但都是概率极低的通用答案。
正好这个时候测测o1的高智商,o1思考了4s,第一条就答到了点上。
通过o1的思考过程,确实能看出o1是认真思考了,先明确核心问题,再列出可能的问题点,然后就很轻松的发现了重点。
这就好比以前考试的时候,如果问题不过脑子,也能简单答个一两点,看似逻辑也还ok,但就是没答到点上!
另外试了下claude3.5,一样也是跪!
绝对是被低估了。
我用着套壳版chatgpt,在o1系列之前,已经很长一段时间被国内AI大模型——百度文库AI、夸克、通义千问——这些国产顶流给占据了心智。一方面是国产AI数理化能力并不弱(尤指通义千问),另一方面是唯有国内AI能肆意搜索中文互联网最新的资讯,它们在内容的及时性相当出色,这对于需要较新数据支撑编写报告文案的用来说,是非常得力的助手。
直到GPT-o1出现,在推理能力、写作模仿风格以及编程问题处理上做出了超预期的表现;比如编程中的边界问题处理,一下子就超越了通义千问。
之前在个人PC上用计算器算八进制转成十进制的一道题,发现给出的答案不对,我大概知道是数据溢出的问题,只是趁机盘问下AI。
问题是这样的:八进制130000的十进制是多少?为什么我的windows计算器给出的是-20480?
通义对这类边界问题一向模模糊糊,一度还总一本正经的胡说八道GPT-o1 preview一下子给出了正确答案,但在o1之前chatgpt也会犯迷糊还有写作风格,GPT-o1是我用过最懂什么是“模仿风格”的AI。
据说GPT-o1是能像人类一样推理问题的,它回答问题是基于分步骤的思考,而不是简单粗暴的从大数据里提取框架的文字堆砌。
符合我对它的使用体验。
至于为什么推出来后热度不高,我倾向于是它收费太贵了。
OpenAI新推出的o1模型是目前该公司收费最高的AI模型。通过API使用o1预览版,输入每百万token要收费15美元,输出每百万收费60美元。而GPT-4o的百万token输入收费只有5美元,输出为15美元。这使得o1的输入成本是GPT-4o的3倍,输出成本是其4倍。现如今,AI产品层出不穷,用户在选择时更加谨慎,他们会优先考虑投资回报,确保所选的AI工具能够带来实际的商业价值。因此,GPT-O1在未来能否大规模推广,还取决于它能否在实际应用中展现出足够的优势。