GPT和Claude,哪个更擅长解答数学和力学问题呢?

2024-11-19 阅读 14
更新于 2024年11月21日
能力可以说是相当,具体选择看个人喜欢咯~大模型的竞赛,真是越来越精彩了。一直以来,这个市场的绝对主角就是OpenAI,它甚至抢走了谷歌、微软这些科技巨头的彩头。
但OpenAI的王座并不稳固,一直有不同的挑战者向它发起冲击。其中之一,就是Anthropic的Claude 3。
从纸面战斗力来看,这个模型似乎已经超过了GPT-4。它的能力还没见识到,但“封号小达人”的威力倒是名不虚传。
既然要比谁更擅长解答数学和力学问题,那就直接看MATH测试结果。
在该项指标上,Claude 3 Opus(61%)要明显强于GPT-4(52.9%),说明Claude 3 Opus的数学能力更胜一筹,那其数据分析的准确性、数据计算能力想必更好。
我直接从某年的中考数学真题中选道来测试下这两大模型:
题目:若关于x的一元二次方程x2-3x+m=0有两个相等的实数根,则实数m的值是多少?(正确答案=9/4 )Claude测试结果GPT测试结果Claude3给出了正确答案和详细的推导过程,GPT-4则并没有过程。(虽然但是,为什么我读书的时候没有这个工具!)
单从这个结果来看,Claude 3 Opus做数学题、推理的本事持平GPT-4,有详细的推理过程,有理有据,不过对于高中数学题,偶尔会掉链子。
底层不同,所以Claude与ChatGPT有不同的体验。Claude与ChatGPT从一开始就走了不同的道路。
虽然Claude与ChatGPT都是靠强化学习(RL)来训练偏好模型,并进行后续微调。但是,在训练方法上,Claude又与ChatGPT略有不同。