GPT和Claude，哪个更擅长解答数学和力学问题呢？-有趣的事

2024-11-19 阅读 164

更新于 2024年11月21日

能力可以说是相当，具体选择看个人喜欢咯~大模型的竞赛，真是越来越精彩了。一直以来，这个市场的绝对主角就是OpenAI，它甚至抢走了谷歌、微软这些科技巨头的彩头。

但OpenAI的王座并不稳固，一直有不同的挑战者向它发起冲击。其中之一，就是Anthropic的Claude 3。

从纸面战斗力来看，这个模型似乎已经超过了GPT-4。它的能力还没见识到，但“封号小达人”的威力倒是名不虚传。

既然要比谁更擅长解答数学和力学问题，那就直接看MATH测试结果。

在该项指标上，Claude 3 Opus（61%）要明显强于GPT-4（52.9%），说明Claude 3 Opus的数学能力更胜一筹，那其数据分析的准确性、数据计算能力想必更好。

我直接从某年的中考数学真题中选道来测试下这两大模型：

题目：若关于x的一元二次方程x2-3x+m=0有两个相等的实数根，则实数m的值是多少？（正确答案=9/4 ）Claude测试结果GPT测试结果Claude3给出了正确答案和详细的推导过程，GPT-4则并没有过程。（虽然但是，为什么我读书的时候没有这个工具！）

单从这个结果来看，Claude 3 Opus做数学题、推理的本事持平GPT-4，有详细的推理过程，有理有据，不过对于高中数学题，偶尔会掉链子。

底层不同，所以Claude与ChatGPT有不同的体验。Claude与ChatGPT从一开始就走了不同的道路。

虽然Claude与ChatGPT都是靠强化学习(RL)来训练偏好模型，并进行后续微调。但是，在训练方法上，Claude又与ChatGPT略有不同。

ChatGPT采用人类反馈强化学习（RLHF）Claude采用的原发人工智能方法，基于偏好模型来进行训练，被称为“AI反馈强化学习”（RLAIF）至于说选哪个模型，就看你平时的使用习惯~

Anthropic可以挑战OpenAI，那至少说明“王侯将相宁有种乎”，OpenAI并不是不可逾越的高山。

而作为一个中国人，我们迫切希望在国内能早点出现这样的挑战者。毕竟国内的产品不用翻墙，不会随便被封号，用起来会方便很多！

国内AI的几个简单实例：01.迅捷PPT 从0到1，整个PPT制作方便又快捷。且兼容Win/Mac双系统，以及PC/WEB双端口，多平台都可无缝切换。

支持一键生成PPT，抛出一个主题或关键词，或是导入本地大纲，即可秒get包含多章节的大纲内容，大大节省了我们构思的时间。

浏览器访问使用，关键是还提供了限免使用的机会~

模板资源相当丰富，里面覆盖多种类型、风格和颜色，觉得PPT看起来太单调的话，可以在其素材库内挑选模板去套用。

无需复杂操作流程，即便是新手也能灵活运用，轻松拿下专业级别的PPT作品~

02.通义千问通义大模型下的AI办公助手，其通用能力强，对用户语言理解好，问题回答逻辑性比刚出那会强了很多，就算是一些专业性的问题，也能够用简单易懂的方式给予正确的解释。

代码生成能力也有了非常明显的进步，至少稍加修改，就能直接用。且支持智能分析图片/文档，轻松从文件内提取有效信息进行分析总结。

03.豆包字节出品，基于云雀模型开发的AI。它和通义差不多，也是一个多模态模型衍生出的AI助手。

其具备多种功能和应用场景，可搜索实时资讯、一键成文、图像生成、阅读总结、音乐生成等等。且支持多种语言，可为知识库提供核心理解能力。

可以的话也高抬贵手，点点关注@王哪跑，后续还会多更新实用干货哒~