体感测评：Sonnet 5——一个试图讨好所有人的模型，结果谁都不满意

原文：Vibe Check: Sonnet 5—A Model Pitched for Everyone Impresses No One 作者：Katie Parrott 日期：2026-07-02

自从 2024 年 Claude 3 这一代模型问世以来，Anthropic 就一直把 Sonnet 定位成那个“金凤花姑娘”（Goldilocks）式的中间路线。Opus 是聪明但昂贵且慢的那个；Haiku 是快速便宜、但你不能指望它做真正推理的那个。Sonnet 则被放在两者之间：对复杂工作来说足够聪明，对日常使用来说又足够便宜和迅速。

问题在于，“刚刚好”这个定位要想成立，前提是你不能比替代方案更贵、更慢或更蠢——而 Sonnet 5 恰恰把这三点全占了。把 Sonnet 5 调到最高努力程度，其表现也仅能与中低设置的 Opus 4.8 持平，但单次任务成本反而更高。便宜的选项并不便宜。在速度上，它相对于 Opus 的任何优势，都会被你在纠正其错误上花掉的时间吞噬干净。快的选项并不快。在智能方面，Kieran Klaassen 曾目睹它花了三个小时在一个有问题的构建上，陷入循环并烧掉了大量 token，却毫无进展。聪明的选项不够聪明。

在试图成为那个“刚刚好”的模型的过程中，Sonnet 5 最终相对于其他选项，既太烫又太凉。

Sonnet 5 是一个还不错的模型，只是运气不佳，出生在了群星闪耀之后。我们会在下文一一拆解。

Anthropic 是怎么说的

Anthropic 把 Sonnet 5 定位为史上最具自主行动能力（agentic）的 Sonnet——以 Opus 4.8 几分之一的价格提供同等水平的结果，并且少了旧模型的一些粗糙棱角。我们的测试发现，编程和自主行动能力的提升幅度有限，而两个最强的营销主张——更便宜，以及接近 Opus——在我们的实际工作流中都站不住脚。

“史上最具自主行动能力的 Sonnet 模型”

大体上没错，但评价好坏参半。它确实比更早的 Sonnet 模型能做出更多决策，尽管这些决策并不总是更好。有时它会跳过提问澄清的环节，过早地认为自己已经掌握了足够的上下文。

“性能接近 Opus 4.8”，且成本更低

站不住脚。要达到接近 Opus 4.8 的水平，Sonnet 5 似乎需要调高努力程度，而此时其价格优势就开始消失了。

相比 Sonnet 4.6 有“实质性改进”

改进是有的，但“实质性”这个说法感觉言过其实。我们的测试发现，它并没有比前代明显更快或更便宜，也不足以替代 Opus 4.8 来处理关键任务。

更低的幻觉率、更少讨好用户、以及对不安全任务更可靠的拒绝能力

Anthropic 称 Sonnet 5 的幻觉比 Sonnet 4.6 更少，但我们仍然发现它会虚构内容或误读源材料，以至于很难让人信任。关于减少讨好和更可靠拒绝的说法成立得更好一些，不过如果你习惯了更友好的模型，它的反应可能会被理解为固执甚至对抗性的。

实际体感测试

Kieran Klaassen

Kieran Klaassen，复合工程之父

“我在它上面跑完了整套 LFGBench 测试，我没看到它的位置。它的 Rubber Duck 商店示例勉强能跑，但没有任何理由让你放下 Opus 4.8 或 Fable 去用它——它没有更快，没有更便宜，只是更差。在自主行动方面，它总是陷入循环，无休止地运行，却没有足够的智能去真正解决问题。这不是一个为编程而生的模型——它自以为聪明到能一圈圈跑下去，但实际上不是。”

Mike Taylor

Mike Taylor，首席 PPT 工程师

“我看了下基准测试，感觉就是一般般——没有更便宜、没有更快、没有更好，我也不理解他们为什么要把它升级到 5，它的表现感觉更像 4.8。它在我们的 PowerPoint 模板任务上表现还行，没犯什么大错。实际上我可能会考虑在 AskRally［我搭建的一个受众模拟工具］里用它，但定价和 Gemini 比有点吃亏，我现在默认用 Gemini 是每 100 万 token 2 美元，而 Sonnet 是 3 美元。要跟开源模型比，它不够快也不够便宜；要跟 GPT-5.5 比，它不够聪明。如果某个具体任务在成本上算得过来，它是有用武之地的，但这次发布里没有任何东西让我想把日常流程切换过来。”

Austin Tedesco

Austin Tedesco，具备自主行动能力优势的增长负责人

“我希望 Sonnet 5 能用于快速、实用的市场进入工作：跟进邮件、营销活动草稿，就是那种你希望模型能快速搭好框架，然后你来润色而不是重写的工作。我给了它和 Opus 4.8 相同的 Codex Power User 训练营跟进邮件提示词。Opus 会先提出澄清性问题，然后返回一封接近可直接发送的邮件。Sonnet 5 跳过了这一步，给我了一个我可能会发的邮件外壳，但需要逐行重写。它只是做了这件事，但做得更糟。”

Katie Parrott

Katie Parrott，白天是被 AI 点化的写作者，晚上是氛围程序员

“我对 Sonnet 5 作为更快、更具迭代性的写作伙伴寄予厚望。但它太固执、太有主见，而且不够聪明，无法满足这个需求——尤其是当 GPT-5.5 就摆在旁边作为替代品时。我找不到一个场景能让它成为我的默认选择：在编程或工作流开发上，我不会用它替代 Opus 4.8 或 Fable；在需要我最依赖模型的那部分写作流程里，我又不够信任它。”

Jack Cheng

Jack Cheng，资深编辑与专业玩家

“我一开始真的很喜欢 Sonnet 5。它似乎能处理很多上一代 Sonnet 做不了、而 Opus 又太慢的协作式 UI/UX 打磨工作。它的回复直率而不机械；它是 Claude 系列里最有，怎么说呢，态度的模型。但它为编辑任务抓取正确上下文的能力时好时坏。有时它会未经要求就去核对事实，从 Every 的文章库里抓取链接，有时则不会（而 GPT-5.5 可靠地两者都会做）。当 Fable 5 重新上线，我可以把它调到高速低力度的设置来跑 UI 工作时，我发现自己不知道什么时候还会再用 Sonnet 5。也许下周吧，等 Fable 离开 Claude Max 计划的免费额度之后。”

图例说明：

范式转变
对这个版本很兴奋
还行，但我不会每天用
垃圾版本
仅限付费订阅用户

编程：面对硬核工作，能力太弱

写作：散文笔法尚可，判断力靠不住

知识工作：在一个 Opus 4.8 的世界里做着 Opus 4.5 级别的活儿

自主行为：不可信的自主性

结论：一个能力尚可的模型，但整整迟到了一代

Katie Parrott 是 Every 的专职作者。你可以在她的 newsletter 里读到她的更多作品。

核心启示：Sonnet 5 陷入了一个在模型世界里最为尴尬的境地——在任何一个关键维度（价格、速度、智能）上，它都不是最优选，甚至不是次优解，这使得“中间路线”的定位实际变成了“无人问津”的处境。

Vibe Check: Sonnet 5—A Model Pitched for Everyone Impresses No One 的发芽报告

材料核心

Anthropic 将 Sonnet 5 定位为介于昂贵高智能与便宜低智能之间的“刚刚好”模型，但它在成本、速度和智能上均未明显超越 Opus 4.8、GPT-5.5 或开源模型，最终因定位模糊而两头落空。

发芽 01：定位陷阱——“刚刚好”为何成为最糟糕的位置

种子

Sonnet 5 的窘境并非单纯因为能力不足，而是它陷入了迈克尔·波特在 1980 年《竞争战略》中所警告的“夹在中间”陷阱。当产品既不提供绝对低价，也不具备差异化高价值时，用户会迅速流向两侧更极端的选择。材料中“既不够便宜去对抗开源模型，又不够聪明去挑战 GPT-5.5”的批评，正是这一经典战略失误的技术市场重演。

苹果在 2013 年推出的 iPhone 5c 提供了一个几乎平行的故事。iPhone 5c 被设计成介于旗舰 iPhone 5s 与更旧型号之间的“彩色中间款”，价格有所降低但并非真正的廉价机，性能接近高端却又刻意做了塑料外壳的降格。市场反应十分冷淡——追求顶级的买 5s，追求便宜的买打折的 iPhone 5 或安卓机。5c 在 2014 年便迅速减产，成为苹果少有的定位败笔。它与 Sonnet 5 共享同一个基因：为了照顾中间地带，主动阉割了最能说服用户走向极端的理由——要么更便宜，要么明显更强。波特指出，夹在中间的企业通常“低于平均利润”，因为它们试图服务所有人，却对任何人都没有足够的吸引力。在日新月异的模型市场中，这种“中庸”甚至会立刻被下一轮发布淹没。

Aha 瞬间

“当市场足够高效时，‘各方面都不错’就等于‘各方面都不够用’。谁都不想当第二选择，但中间产品就只能成为每个人的第二选择。”

发芽 02：自动化悖论——当代理能力跑在信任前面

种子

材料中多次提到 Sonnet 5 的代理行为不可靠：它会在缺少上下文时过早停止提问，在编程中陷入循环而不自知，写出的邮件只是外壳需全部重写。这暴露出一个更深层的产品问题：Sonnet 5 被赋予了更高的自主性，但智能水平不足以安全地驾驭这种自主性。这恰好踩入了人机交互领域的“自动化悖论”——当系统自动化程度越高，人在回退接管时就越缺乏情景意识，若系统出错，代价反而更大。

在自动驾驶领域，L3 级有条件的自动驾驶是这一悖论的最佳例证。L3 允许驾驶者松开双手，但要求他们随时准备接管。奥迪在 2017 年试图推出全球首款 L3 量产车 A8，最终因监管和可靠性争议而放弃。研究发现，L3 的“中间自动化”让驾驶者注意力涣散，接管耗时反而长于完全手动驾驶，事故风险不降反升，导致许多车厂（如福特、沃尔沃）直接跳过 L3 主攻 L4。Sonnet 5 的代理行为正处在类似的 L3 尴尬区：它表现得“足够自主让人想信任”，又“不够可靠到能放心不看”。这使得用户的工作流变成了持续的纠正和监控，而材料中 Kieran Klaassen 的反馈“它不断绕圈运行却不解决问题”正是这种消耗性半自动化的缩影。过去我们在自动化中追求“人类在回路”，但回路设计不当，回路就变成枷锁。

Aha 瞬间

“一个被赋予自主性但不值得信任的模型，不是助手，是随时会走错岔口的导航——你没法休息，因为你知道它会在最不该犯错的时候犯错。”

你的思考空间

如果 Anthropic 当初不把 Sonnet 5 作为“金凤花”模型推出，而是激进地定位为“最便宜的推理模型”或“最高效的代理模型”，它的市场评价会截然不同吗？
在什么类型的任务中，“中间模型”仍然有生存空间？这些任务是否正在被 AI 工具链的快速进化淹没？
当模型之间的能力差距不断缩小，“信任”作为差异化因素是否比原始智能更重要？Sonnet 5 的信任危机是暂时版本问题还是定位导致的永久伤口？
产品定位的“夹在中间”只是阶段性现象吗？如果下一代 Sonnet 突然在性价比上全面超越，市场会如何重写它的故事？
我们衡量 AI 模型时，是否过度使用“通用全能”的框架，而忽略了为特定工作流做极致优化的巨大价值？