如何看待月之暗面发布对标 OpenAI o1 的推理模型 k0-math？-有趣的事

2024-11-19 阅读 18

更新于 2024年11月21日

从杨植麟的视频演示看，数学能力还是挺惊艳的，另外要特别赞赏的一点是kimi比openai慷慨，k0-math没有刻意去隐藏思维链，不害怕别人去蒸馏他的思维过程（以后其他人可以快速用kimi造数据了）

榜单成绩很强，注意到下图的一小段文字“与o1系列模型相似test token数量”，猜测月之暗面应该基本掌握了o1的技术细节，但是相似的token数不代表相似的算力，也要看模型的尺寸。

最后，期待code能力的突破，猜测应该也快了

这是我在网上找到的最长的一个视频。有长资源的伙伴可以分享我一点。看起来是月之暗面内部分享会。

这个视频里，杨植麟分享了k0-math，自我反思，自我纠错的过程，全程可以看到CoT的描述过程。

他强调了一个特性:

①这是一个提示词模板达不到的效果

②很多问题都需要不同的思路，靠模板是不行的

所以先不要急着批判，至少从官方视频来看，他们努力的方向，是反思，纠错，思维链。没有把CoT过程隐藏起来，做了就检查，错了继续改，而不是展示做对或做错。

传统模型的弊病之一，就是过于自信，自我纠错很难，写完了，笔一扔，就摇摇腿等交卷。

目前，他们的方向是推进数学，而不是在STEM+代码领域全面推进，这些都是需要大量的“经验数据”的，你用纯数学第一性原理去证明生物学上的准确性，那你推理10年都推理不完。越靠近纯逻辑需要的数据越少，但思维链条越长，准确性要求越高。很明显，Moonshot是缺乏足够多的经验数据的。

这也挺讽刺的，2023年说数学不行，现在数学搞得一点面子都没了。

Bindu Reddy那句话是对的: 只要能测试，我们就能继续进步。

数学天然就是测试的好基准，毕竟你真的很难测试小说散文写得好不好，越给散文套标准，散文会越僵化。