导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

Anthropic 的 Claude Sonnet 5 以极低的价格逼近 Opus 4.8

Anthropic 于周二发布了 Claude Sonnet 5,称其为“迄今为止最具代理性的 Sonnet 模型”。它是免费版和专业版用户的默认模型,适用于 Max、Team 和 Enterprise 计划,在 Claude Code 中并通过 API 运行。与过去发布的 Sonnet 不同,这个版本是紧邻上一个 Opus 而构建的,而不是落后于它的后面一层。

其发布帖子中,该公司表示 Sonnet 5 的性能“接近 Opus 4.8,但价格更低”。开发人员可以在两个模型之间滑动工作量旋钮,或者在网络应用程序上选择不同的级别,以牺牲成本换取同一任务的准确性,覆盖过去需要 Opus 费率的领域。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

在 SWE-bench Pro 上(一种编码基准,从具有多文件更改的主动维护存储库中提取问题,以解决百分比进行评分),Sonnet 5 达到 63.2%,而 Sonnet 4.6 为 58.1%。

GDPval-AA v2(一种人工分析基准,通过盲配对 Elo 评级对 44 种工作的真实专业任务进行评分)在 GDPval-AA v2 上的得分为 1,618,与 Opus 4.8 的 1,616 的统计数据持平。在《人类最后的考试》中,Sonnet 5 和 Opus 4.8 之间的差异基本上可以忽略不计:57.4% 与 57.9%。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

Sonnet 5 还附带了一个更新的分词器,该系统将文本分解为模型所需的单位,而且它更加饥饿,将相同的输入转换为消耗更多标记的任务。 “Sonnet 5 是 Sonnet 4.6 的升级版,但它使用了更新的分词器,改变了模型处理文本的方式以提高性能”Anthropic 在一个小脚注中写道。 “权衡是相同的输入可以映射到更多令牌:大约 1.0–1.35×,具体取决于内容类型。”

Anthropic 设定了 2 美元/10 美元的入门费率,以便在 8 月 31 日之前实现成本中性,之后价格恢复到 Sonnet 收取的标准 3 美元/15 美元。

一些人已经对这个版本产生了兴趣。今年春天,开发人员花了数周时间讨论 Anthropic 如何让 Opus 4.6 悄然失去其优势(被称为人工智能收缩膨胀,并引用了放弃功能),并且 Anthropic 否认故意降低任何模型的性能。同一场辩论中的一些人将这种怀疑延伸到了十四行诗,认为这种模式重复了:让旧模型顺其自然,那么相比之下,新模型看起来会是一个更大的飞跃。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

Sonnet 5 发货时也没有附加到 Anthropic 顶层的包袱。根据与有争议的越狱调查结果相关的美国出口管制指令,自 6 月 12 日起,《神鬼寓言 5》和《神话 5》仍对外国公民暂停播放。 Sonnet 5 从未接受过网络安全任务方面的培训,并且在开发有效的 Firefox 漏洞利用方面得分为 0%,因此它提供的保护措施比《神鬼寓言》的锁定要轻。

Anthropic 的系统卡描述了一个模型,旨在以 Sonnet 定价为编码、代理和日常工作提供接近 Opus 的智能。它还标志着一些奇怪的事情:“这是第一个批评其宪法规则的模型,该规则规定它必须遵循严格的约束,即使它认为这些约束是不道德的,”研究小组写道。 Anthropic 表示不确定这对模型意味着什么,只是认为它值得关注。

我们不会说这就是天网的开始方式,但这就是天网的开始方式

我们进行了快速测试

我们为 Sonnet 5 提供了一个零样本提示来构建一个小型浏览器游戏,这与我们去年在 Sonnet 4.5 上运行的测试相同。

我们的打字游戏第一次尝试就运行了,与在相同提示下生成的 Sonnet 4.6 相比,具有更清晰的视觉效果和更严格的逻辑。

但是,与其他模型相比,它花费了太多的时间(大约 30 分钟的推理)并且疯狂地消耗代币。那次迭代消耗了 Claude Pro 计划中 5 个限制配额的 90%。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

您可以在我们的 itch.io 网站上测试最终游戏。

在较难的多步编码任务中,Sonnet 5 接近 Opus 4.8,具体取决于工作量,并且相同的提示运行多镜头成本明显低于 Opus 或 Fable 上的同等工作。

Sonnet 5 的版本号也正在发挥实际作用。克劳德历史上的每一次整数跳跃都标志着新一代的诞生——版本 1 于 2023 年 3 月发布,版本 2 于 4 个月后发布,版本 3 于 8 个月后发布,版本 4 于 14 个月后的 2025 年 5 月发布。 Sonnet 5 在时间上有类似的差距,提前了 13 个月,这可能表明竞争有多么激烈,尤其是现在中国模型正在关闭差距如此之快。

也就是说,代沟不会像从克劳德 3 到克劳德 4 那样令人印象深刻。这也表明人工智能大公司正争先恐后地发布新模型,无论改进有多大。

如果 Anthropic 遵循上个周期使用的顺序,Sonnet 通常会领先,然后它会与 Opus 一起发布其便宜且小的俳句,这是其最先进的版本,稍后发布。具有相似版本的三个模型之间的差距较短,每次发布一个月:Sonnet 4.5于 2025 年 9 月推出,Haiku 4.5 随后于 10 月推出,Opus 4.5 于 11 月结束了这一代。

按照这种乐观的节奏,Haiku 5 和 Opus 5 是仍将在今年发布的两款机型。也就是说,Anthropic 与发布的内容并不一致。 Haiku 4.5 和 Sonnet 4.6 之间的差距超过 3 个月,所以如果您想尽快测试 Opus 5,请祈祷。