如何看待月之暗面发布对标 OpenAI o1 的推理模型 k0-math?

2024-11-19 阅读 18
更新于 2024年11月21日
从杨植麟的视频演示看,数学能力还是挺惊艳的,另外要特别赞赏的一点是kimi比openai慷慨,k0-math没有刻意去隐藏思维链,不害怕别人去蒸馏他的思维过程(以后其他人可以快速用kimi造数据了)
榜单成绩很强,注意到下图的一小段文字“与o1系列模型相似test token数量”,猜测月之暗面应该基本掌握了o1的技术细节,但是相似的token数不代表相似的算力,也要看模型的尺寸。
最后,期待code能力的突破,猜测应该也快了
这是我在网上找到的最长的一个视频。 有长资源的伙伴可以分享我一点。看起来是月之暗面内部分享会。
这个视频里,杨植麟分享了k0-math,自我反思,自我纠错的过程,全程可以看到CoT的描述过程。
他强调了一个特性:
①这是一个提示词模板达不到的效果
②很多问题都需要不同的思路,靠模板是不行的
所以先不要急着批判,至少从官方视频来看,他们努力的方向,是反思,纠错,思维链。没有把CoT过程隐藏起来,做了就检查,错了继续改,而不是展示做对或做错。
传统模型的弊病之一,就是过于自信,自我纠错很难,写完了,笔一扔,就摇摇腿等交卷。
目前,他们的方向是推进数学,而不是在STEM+代码领域全面推进,这些都是需要大量的“经验数据”的,你用纯数学第一性原理去证明生物学上的准确性,那你推理10年都推理不完。越靠近纯逻辑需要的数据越少,但思维链条越长,准确性要求越高。很明显,Moonshot是缺乏足够多的经验数据的。
这也挺讽刺的,2023年说数学不行,现在数学搞得一点面子都没了。
Bindu Reddy那句话是对的: 只要能测试,我们就能继续进步。
数学天然就是测试的好基准,毕竟你真的很难测试小说散文写得好不好,越给散文套标准,散文会越僵化。