如何看待月之暗面发布对标 OpenAI o1 的推理模型 k0-math?

2024-11-19 阅读 77
更新于 2024年11月21日
从杨植麟的视频演示看,数学能力还是挺惊艳的,另外要特别赞赏的一点是kimi比openai慷慨,k0-math没有刻意去隐藏思维链,不害怕别人去蒸馏他的思维过程(以后其他人可以快速用kimi造数据了)
榜单成绩很强,注意到下图的一小段文字“与o1系列模型相似test token数量”,猜测月之暗面应该基本掌握了o1的技术细节,但是相似的token数不代表相似的算力,也要看模型的尺寸。
最后,期待code能力的突破,猜测应该也快了
这是我在网上找到的最长的一个视频。 有长资源的伙伴可以分享我一点。看起来是月之暗面内部分享会。
这个视频里,杨植麟分享了k0-math,自我反思,自我纠错的过程,全程可以看到CoT的描述过程。
他强调了一个特性:
①这是一个提示词模板达不到的效果
②很多问题都需要不同的思路,靠模板是不行的
所以先不要急着批判,至少从官方视频来看,他们努力的方向,是反思,纠错,思维链。没有把CoT过程隐藏起来,做了就检查,错了继续改,而不是展示做对或做错。
传统模型的弊病之一,就是过于自信,自我纠错很难,写完了,笔一扔,就摇摇腿等交卷。
目前,他们的方向是推进数学,而不是在STEM+代码领域全面推进,这些都是需要大量的“经验数据”的,你用纯数学第一性原理去证明生物学上的准确性,那你推理10年都推理不完。越靠近纯逻辑需要的数据越少,但思维链条越长,准确性要求越高。很明显,Moonshot是缺乏足够多的经验数据的。
这也挺讽刺的,2023年说数学不行,现在数学搞得一点面子都没了。
Bindu Reddy那句话是对的: 只要能测试,我们就能继续进步。
数学天然就是测试的好基准,毕竟你真的很难测试小说散文写得好不好,越给散文套标准,散文会越僵化。
以我对kimi的了解,绝逼营销大于实力,我都懒得测。
我再提醒提醒各位,这是一个:
从出生就宣传超过gpt。
全国营销买量最多,到处都是水军。
股价抄上去就减持。
直接在系统prompt写9.9>9.11。
的公司和产品
进一步说明如今AI在大方向上没有秘密,o1刚发布的时候我就预言说其他公司几个月内就可以搞出效果差不多的东西。考虑到kimi没有另外几家那么实在,取低的指标看,也接近o1-preview了。
预训练撞墙,各个LLM公司都转向其他路线,对国内AI是个重大利好。国内不缺人才和算法,主要是算力被卡脖子很难受。
等一波实测,不排除营销的可能。
话说,没人知道o1的技术路线,只知道o1的表现,所以k0不一定是o1路线。
以下是更新:
刚刚月之暗面官方公众号已经发布对k0-math的介绍[1]。
k0-math 是 Kimi 推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。看起来k0-math和o1一样基于强化学习和思维链推理(CoT)。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中(下面前4列),k0-math 初代模型成绩超过o1-mini和o1-preview模型。其中在业界最常使用的数学能力基准测试 MATH 中,k0-math 模型得分 93.8,超过 o1-mini 的 90 分和 o1-preview 的 85.5 分。但是,k0-math 这一成绩低于暂未开放使用的 o1 完全版 94.8 分。
但是,在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。
简单来说,就是k0-math在常规题目上能和 o1-mini差不多,但是上了难度就差了一些。
k0-math 模型也会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。下面是一个例子:
有时候k0-math 模型会经历了八九次失败才会得到正确答案:
此外,当前版本的k0-math无法处理 LaTeX 格式难以描述的几何图形类问题。另外,过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考;对于高考难题和IMO题目依然有一定概率做错、猜答案;需要更好的泛化,才能在更多学科的场景中落地使用。
此外,月之暗面还将基于强化学习范式的推理能力运用到 AI 搜索任务上,通过模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,帮助用户更高效地完成复杂的搜索调研任务。
不过,k0-math 数学模型和更强大的 Kimi 探索版都没正式上线,还是等实测后再看效果。
参考^https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA