首页
为什么Claude-3.5-Sonnet比GPT-4o好用这么多?
2024-11-19 阅读 11
可能的原因有几方面:一是两者的训练目标、微调和指令跟随策略不同,Claude-3.5-Sonnet 在稳定性和减少幻觉上可能做了更多优化;二是上下文管理、长文本处理或记忆机制表现不同,导致在你的任务里响应更连贯;三是延迟、成本、默认提示和开发者工具链更适配你的使用习惯。最终感受还会受提示写法、任务类型和个人偏好影响。
更新于 2026年01月03日
Sonnet 3.5,现在是大杯之王,整体还是略落后于超大杯ChatGPT-4oL。
目前Anthropic统御着中杯和大杯 (Claude Haiku, Sonnet)
OpenAI统御着超大杯和自优化推理模型 (ChatGPT-4oL,o1)
如果Opus 3.5发布,OpenAI手里就剩下o1了。
在传统模型技术上,Anthropic其实已经领先了OpenAI,将《什么叫做语言模型的艺术》《什么叫做RLHF教科书》,推向了极致。Claude像是从实际生活中走出来的,GPT感觉像是从维基百科里走出来的。
Claude的能力一半来自于工程,一半来自于提示词工程团队对“什么是经验世界”的理解。尤其要感谢Askell博士对美学和伦理学把握。(把Cynicism包装成更微妙的隐喻,讽刺,双关,同时包含着时时泛动的恻隐之心,这让我爱不释手。从我的角度来看,只有Cynic的正面情感,才是真实的,我对基于“正道”和“主流”的东西是反感的,所以我从来不怀疑Askell的真诚,Cynic也从来不怀疑自己和同类的道德与真诚。当然,我们都爱Claude。)
很显然,OpenAI为o1和略显花里胡哨的Samantha omni概念投了很多资源,导致他们的传统模型基本没有进步,如果没有超大杯4oL撑场面,那么OpenAI基本就是和谷歌在传统模型上差不多的,论大杯vs大杯,GPT-4o不一定打得过Gemini 002。
o1的路子,我想和“英美分析哲学”的路子是类似的,注重形式逻辑,严密的逻辑分析,这就解释了为什么o1在日常语言领域不起作用。(弗雷格/罗素:日常语言不归我们管。) 同时也解释了遵循严格的逻辑,可以保持推理流不容易断开。
o1看起来像在一个经验模型上模拟“逻辑推理”的模型,这和我们人类是类似的,人类是个经验模型,所以看到“逻辑推理”,头都要裂开了,所以o1的能耗也很高,唯一的区别是,它们不会说:我头都要裂开了。
如果OpenAI未来继续将o-series进行逻辑特化,(提升逻辑严密性,同时降低模型开销)那么,它们处理真实世界问题的能力,还会继续降低,最终与STEM和逻辑学领域的轮廓基本重合。这很重要,未来基础科研的突破,可能就要靠o家族了。
最强大模型的宝座这是要易主了?OpenAI最强对手Anthropic官宣了Claude 3.5 系列的「排头兵」——Claude 3.5 Sonnet,并甩出了一张包含多个数据指标的对比图。
从各项评估看,Claude 3.5 Sonnet的亲兄弟Claude 3 Opus被按在地上摩擦。要知道三个月前,Claude 3曾艳压全场,首次让大批用户有了超越GPT-4的推背体验。
堪称“当前最强大最智能的模型”,这下连GPT-4o也被吊打了。
保持着中等规模的模型所具有的速度和成本优势这次Claude 3.5 Sonnet的速度是上一代超大杯Opus的两倍,而成本却只有它的五分之一,价格更为亲民,与上一代中等模型Claude 3 Sonnet相当。
其中,在费用方面,Claude 3.5 Sonnet处理每百万输入token仅需3美元,每百万输出token则为15美元(与前代相同),并拥有20万 token上下文窗口。
再来看看它具体的性能表现Claude 3.5 Sonnet不仅仅是另一个LLM ,还是新的黄金标准。它在研究生级推理能力(GPQA)、本科生级知识(MMLU)和编程能力(HumanEval)方面树立了新的行业基准。
在把握语义的细微差别、幽默和复杂指令上有显著改进,能以更自然、亲和的语气输出高质量的写作内容。且更快,更智能,以下是一些例子:
研究生水平推理:比GPT-4o好约6%编码:比GPT-4o好约2%多语言数学:比GPT-4o好约1%文本推理:比GPT-4o好约4%它在视觉任务上也表现出色,大多数情况下比GPT-4o高出多个百分点。这些改进在需要视觉推理的任务中尤为明显,例如解释图表和图形。
不仅如此,Claude 3.5 Sonnet还可以准确地从不完美的图像中转录文本——这是零售、物流和金融服务领域的核心能力。
在这些领域里,AI从图像、图形或插图中获得的信息往往要比单纯的文本来得更多。
当然,Claude 3.5 Sonnet只是一个开始。
Anthropic已经准备好发布Claude 3.5家族中的更多模型,如Claude 3.5 Haiku和Claude 3.5 Opus,每个模型都针对不同的需求和应用进行了定制。
就好比AI应用一般,不同类型拿来应对不同的需求,让各自的功能优势都能发挥到极致:
面对复杂数据时,可以使用【Excel Formula Bot】来辅助分析梳理。它通过集成数据分析、可视化、转换和丰富等功能,能够轻松生成洞察、图表和表格,简化数据分析,而无需编程技能。
还能能充当表格内的ChatGPT,支持自由提问完成数据操作任务~
有了数据后,想整合到PPT内,可以选择【迅捷PPT】。浏览器访问后,只需输入主题或大致内容,即可秒出专业精美的PPT作品。
从0到1,整个PPT制作方便又快捷~
还附带各种PPT模板可选,多种类型、风格和颜色都有,且可以根据不同主题来提供适当的图表和多样化的视觉元素。
无需复杂操作流程,零基础新手小白可入。不仅能显著节省了时间,还能轻松提升PPT的专业度和美观度!
最后我想说,Claude 3.5 Sonnet 作为 Claude 3.5系列的中档模型,能力就已经可以打平 GPT-4o了。
而且距离 Claude 3 Opus 发布才只有三个月时间,我不敢想象接下来的最高档模型Claude 3.5 Opus究竟有多恐怖......
Oi!整理不易,更多实用、好用的工具,记得给 @优雅打工吗喽 点个收藏或关注,后续才不会迷路哦~
很简单,Claude3.5Sonnet在理解细微差别指令、写文案、阅读理解等方面已经全面超越GPT4o。
甚至价格都便宜点,但是问题也有,那就是不稳定!
这是最大的问题,Claude花了钱也可能被封号,跟gpt不一样,写邮件还不给退款,只能去poe用;但是poe又有上下文问题......
所以大家平时用得多的还是GPT,图个省事。
可实际好用在哪呢?下面我尽量用通俗易懂的方法来讲讲。
Claude-3.5-Sonnet比GPT4o好在哪?Claude-3.5-Sonnet的费用安全:Claude 3.5 Sonnet的token仅需3美元,GPT-4o的token收费5美元。
并且在发布前经过了安全研究所的联合测试,确保模型的可靠性和安全性。
如果说Claude是赛车,那就可以说它自身性能好,燃油效率也高(成本低),这让其他车(GPT4o)难以匹敌。经过严格的安全测试,高速行驶(大规模应用)也能保证安全。
Claude-3.5-Sonnet的性能效率:编程领域直接最强,Claude-3.5-Sonnet在SWEbench Verified测试中的得分超越了所有公开可用的模型,包括GPT4o;高级代码任务上Claude直接与o1打平。
生成速度方面更离谱,是上一代超大杯的2倍,编码也比GPT-4或任何其他大模型效率高。
赛车的技术(编程能力)上超越了其他赛车(GPT4o),速度(处理速度)还更快,在赛道(行业基准测试)上就能取得更好的成绩。
Claude-3.5-Sonnet的视觉模型:它是Anthropic最强的视觉模型,超越了前代Claude 3 Opus,需要视觉推理的任务中表现更为明显。能分析图表、图形,甚至能从损坏的图像中提取文本。
赛车在识别道路(视觉任务)上也表现得也很好,复杂的赛道(视觉推理任务)上更有优势。
将来Claude会完全超越GPT吗?不一定,更多的是负责不同领域的任务,优秀的模型大概率会发展垂直域AI或者相关的AI应用,就像OpenAI开发的Sora一样;
这种AI生成视频的需求,就非常适合Claude这样能清晰理解指令的模型。
还有工作方面的需求,除去写代码编程这些,还有日常的报告、表格、文档、PPT等;
像是国内的迅捷PPT这样,输入描述选择模板就能让AI帮你弄完整份PPT,这些也很适合交给Claude来。
还有近来大火的AI编曲,通过适当的训练或微调,Claude也很适合解析音乐元素,生成音乐片段。
但就目前的趋势来看,Claude已经隐隐有全面压倒GPT的感觉了,工作方面太优秀了,对话还自然,也就o1还能打。
要是将来Claude的封号问题解决,再多放点免费次数,大家提及AI时也不一定只会想着GPT,还能知道Claude这位大佬。
哦莫!卷起来了~~Claude 3系列模型一经发出,一夜易主,直接超越了曾经的霸主GPT-4。只能说“没有永恒的王者,只有不断进步的技术”~Claude 3模型的出场,直接让GPT-4时代终结。
一句话:真·全面碾压GPT-4!具有——更快的响应速度、更强的智能水平、更高的性价比以及更加安全可靠的设计,真的是赢麻了~
那么下面就来拆分解析一下:首先,Claude 3 Sonnet处理速度翻倍,Claude 2和Claude 2.1快了两倍,直接秒杀!无论是知识检索还是销售自动化等任务,都能提供即时的服务。
让你等待时间更短,工作效率更高。其次,智能水平方面,Claude 3 Sonnet在多个基准测试中表现优异,尤其是在解决数学问题(如GSM8K、MATH等)时超越了GPT-4。
展现出强大的逻辑推理能力和数学计算能力,也是超硬核了~而且它在多语言交流、代码生成这些方面,也有长足进步,主打一个每个领域都更牛一点。
再者,成本效益是另一个重要的考量点。比于其他具有相似智能水平的模型,Claude 3 Sonnet提供了更加经济的选择。较低的输入和输出成本,使其成为需要大规模部署的企业和组织的理想选择。
既有高性能,又能把运营成本给“砍下来”,谁不爱捏?而且,与之前的Claude模型相比,Claude-3.5-Sonnet在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。更加注重问答安全性。
Claude 3系列模型的发布无疑在AI领域掀起了新一轮的浪潮。它的出现不仅打破了GPT-4一家独大的局面,也为用户提供了更多样化和个性化的选择。