Anthropic 的 Claude Sonnet 5 以极低的价格逼近 Opus 4.8

Anthropic 于周二发布了 Claude Sonnet 5，称其为“迄今为止最具代理性的 Sonnet 模型”。它是免费版和专业版用户的默认模型，适用于 Max、Team 和 Enterprise 计划，在 Claude Code 中并通过 API 运行。与过去发布的 Sonnet 不同，这个版本是紧邻上一个 Opus 而构建的，而不是落后于它的后面一层。

在其发布帖子中，该公司表示 Sonnet 5 的性能“接近 Opus 4.8，但价格更低”。开发人员可以在两个模型之间滑动工作量旋钮，或者在网络应用程序上选择不同的级别，以牺牲成本换取同一任务的准确性，覆盖过去需要 Opus 费率的领域。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

在 SWE-bench Pro 上（一种编码基准，从具有多文件更改的主动维护存储库中提取问题，以解决百分比进行评分），Sonnet 5 达到 63.2%，而 Sonnet 4.6 为 58.1%。

GDPval-AA v2（一种人工分析基准，通过盲配对 Elo 评级对 44 种工作的真实专业任务进行评分）在 GDPval-AA v2 上的得分为 1,618，与 Opus 4.8 的 1,616 的统计数据持平。在《人类最后的考试》中，Sonnet 5 和 Opus 4.8 之间的差异基本上可以忽略不计：57.4% 与 57.9%。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

Sonnet 5 还附带了一个更新的分词器，该系统将文本分解为模型所需的单位，而且它更加饥饿，将相同的输入转换为消耗更多标记的任务。 “Sonnet 5 是 Sonnet 4.6 的升级版，但它使用了更新的分词器，改变了模型处理文本的方式以提高性能”Anthropic 在一个小脚注中写道。 “权衡是相同的输入可以映射到更多令牌：大约 1.0–1.35×，具体取决于内容类型。”

Anthropic 设定了 2 美元/10 美元的入门费率，以便在 8 月 31 日之前实现成本中性，之后价格恢复到 Sonnet 收取的标准 3 美元/15 美元。

&amp;amp;amp;amp;amp;lt;span style="display: inline-block; width: 0px; 溢出:隐藏；行高：0；” data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

一些人已经对这个版本产生了兴趣。今年春天，开发人员花了数周时间讨论 Anthropic 如何让 Opus 4.6 悄然失去其优势（被称为人工智能收缩膨胀，并引用了放弃功能），并且 Anthropic 否认故意降低任何模型的性能。同一场辩论中的一些人将这种怀疑延伸到了十四行诗，认为这种模式重复了：让旧模型顺其自然，那么相比之下，新模型看起来会是一个更大的飞跃。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

Sonnet 5 发货时也没有附加到 Anthropic 顶层的包袱。根据与有争议的越狱调查结果相关的美国出口管制指令，自 6 月 12 日起，《神鬼寓言 5》和《神话 5》仍对外国公民暂停播放。 Sonnet 5 从未接受过网络安全任务方面的培训，并且在开发有效的 Firefox 漏洞利用方面得分为 0%，因此它提供的保护措施比《神鬼寓言》的锁定要轻。

Anthropic 的系统卡描述了一个模型，旨在以 Sonnet 定价为编码、代理和日常工作提供接近 Opus 的智能。它还标志着一些奇怪的事情：“这是第一个批评其宪法规则的模型，该规则规定它必须遵循严格的约束，即使它认为这些约束是不道德的，”研究小组写道。 Anthropic 表示不确定这对模型意味着什么，只是认为它值得关注。

我们不会说这就是天网的开始方式，但这就是天网的开始方式。

我们进行了快速测试

我们为 Sonnet 5 提供了一个零样本提示来构建一个小型浏览器游戏，这与我们去年在 Sonnet 4.5 上运行的测试相同。

我们的打字游戏第一次尝试就运行了，与在相同提示下生成的 Sonnet 4.6 相比，具有更清晰的视觉效果和更严格的逻辑。

但是，与其他模型相比，它花费了太多的时间（大约 30 分钟的推理）并且疯狂地消耗代币。那次迭代消耗了 Claude Pro 计划中 5 个限制配额的 90%。

Anthropic's Claude Sonnet 5 Closes In on Opus 4.8 at a Fraction of the Price

您可以在我们的 itch.io 网站上测试最终游戏。

在较难的多步编码任务中，Sonnet 5 接近 Opus 4.8，具体取决于工作量，并且相同的提示运行多镜头成本明显低于 Opus 或 Fable 上的同等工作。

Sonnet 5 的版本号也正在发挥实际作用。克劳德历史上的每一次整数跳跃都标志着新一代的诞生——版本 1 于 2023 年 3 月发布，版本 2 于 4 个月后发布，版本 3 于 8 个月后发布，版本 4 于 14 个月后的 2025 年 5 月发布。 Sonnet 5 在时间上有类似的差距，提前了 13 个月，这可能表明竞争有多么激烈，尤其是现在中国模型正在关闭差距如此之快。

也就是说，代沟不会像从克劳德 3 到克劳德 4 那样令人印象深刻。这也表明人工智能大公司正争先恐后地发布新模型，无论改进有多大。

如果 Anthropic 遵循上个周期使用的顺序，Sonnet 通常会领先，然后它会与 Opus 一起发布其便宜且小的俳句，这是其最先进的版本，稍后发布。具有相似版本的三个模型之间的差距较短，每次发布一个月：Sonnet 4.5于 2025 年 9 月推出，Haiku 4.5 随后于 10 月推出，Opus 4.5 于 11 月结束了这一代。

按照这种乐观的节奏，Haiku 5 和 Opus 5 是仍将在今年发布的两款机型。也就是说，Anthropic 与发布的内容并不一致。 Haiku 4.5 和 Sonnet 4.6 之间的差距超过 3 个月，所以如果您想尽快测试 Opus 5，请祈祷。