体感测评:Sonnet 5——一个试图讨好所有人的模型,结果谁都不满意
原文:Vibe Check: Sonnet 5—A Model Pitched for Everyone Impresses No One 作者:Katie Parrott 日期:2026-07-02
自从 2024 年 Claude 3 这一代模型问世以来,Anthropic 就一直把 Sonnet 定位成那个“金凤花姑娘”(Goldilocks)式的中间路线。Opus 是聪明但昂贵且慢的那个;Haiku 是快速便宜、但你不能指望它做真正推理的那个。Sonnet 则被放在两者之间:对复杂工作来说足够聪明,对日常使用来说又足够便宜和迅速。
问题在于,“刚刚好”这个定位要想成立,前提是你不能比替代方案更贵、更慢或更蠢——而 Sonnet 5 恰恰把这三点全占了。把 Sonnet 5 调到最高努力程度,其表现也仅能与中低设置的 Opus 4.8 持平,但单次任务成本反而更高。便宜的选项并不便宜。在速度上,它相对于 Opus 的任何优势,都会被你在纠正其错误上花掉的时间吞噬干净。快的选项并不快。在智能方面,Kieran Klaassen 曾目睹它花了三个小时在一个有问题的构建上,陷入循环并烧掉了大量 token,却毫无进展。聪明的选项不够聪明。
在试图成为那个“刚刚好”的模型的过程中,Sonnet 5 最终相对于其他选项,既太烫又太凉。
Sonnet 5 是一个还不错的模型,只是运气不佳,出生在了群星闪耀之后。我们会在下文一一拆解。
Anthropic 是怎么说的
Anthropic 把 Sonnet 5 定位为史上最具自主行动能力(agentic)的 Sonnet——以 Opus 4.8 几分之一的价格提供同等水平的结果,并且少了旧模型的一些粗糙棱角。我们的测试发现,编程和自主行动能力的提升幅度有限,而两个最强的营销主张——更便宜,以及接近 Opus——在我们的实际工作流中都站不住脚。
“史上最具自主行动能力的 Sonnet 模型”
大体上没错,但评价好坏参半。它确实比更早的 Sonnet 模型能做出更多决策,尽管这些决策并不总是更好。有时它会跳过提问澄清的环节,过早地认为自己已经掌握了足够的上下文。
“性能接近 Opus 4.8”,且成本更低
站不住脚。要达到接近 Opus 4.8 的水平,Sonnet 5 似乎需要调高努力程度,而此时其价格优势就开始消失了。
相比 Sonnet 4.6 有“实质性改进”
改进是有的,但“实质性”这个说法感觉言过其实。我们的测试发现,它并没有比前代明显更快或更便宜,也不足以替代 Opus 4.8 来处理关键任务。
更低的幻觉率、更少讨好用户、以及对不安全任务更可靠的拒绝能力
Anthropic 称 Sonnet 5 的幻觉比 Sonnet 4.6 更少,但我们仍然发现它会虚构内容或误读源材料,以至于很难让人信任。关于减少讨好和更可靠拒绝的说法成立得更好一些,不过如果你习惯了更友好的模型,它的反应可能会被理解为固执甚至对抗性的。
实际体感测试

Kieran Klaassen,复合工程之父
“我在它上面跑完了整套 LFGBench 测试,我没看到它的位置。它的 Rubber Duck 商店示例勉强能跑,但没有任何理由让你放下 Opus 4.8 或 Fable 去用它——它没有更快,没有更便宜,只是更差。在自主行动方面,它总是陷入循环,无休止地运行,却没有足够的智能去真正解决问题。这不是一个为编程而生的模型——它自以为聪明到能一圈圈跑下去,但实际上不是。”

Mike Taylor,首席 PPT 工程师
“我看了下基准测试,感觉就是一般般——没有更便宜、没有更快、没有更好,我也不理解他们为什么要把它升级到 5,它的表现感觉更像 4.8。它在我们的 PowerPoint 模板任务上表现还行,没犯什么大错。实际上我可能会考虑在 AskRally[我搭建的一个受众模拟工具]里用它,但定价和 Gemini 比有点吃亏,我现在默认用 Gemini 是每 100 万 token 2 美元,而 Sonnet 是 3 美元。要跟开源模型比,它不够快也不够便宜;要跟 GPT-5.5 比,它不够聪明。如果某个具体任务在成本上算得过来,它是有用武之地的,但这次发布里没有任何东西让我想把日常流程切换过来。”

Austin Tedesco,具备自主行动能力优势的增长负责人
“我希望 Sonnet 5 能用于快速、实用的市场进入工作:跟进邮件、营销活动草稿,就是那种你希望模型能快速搭好框架,然后你来润色而不是重写的工作。我给了它和 Opus 4.8 相同的 Codex Power User 训练营跟进邮件提示词。Opus 会先提出澄清性问题,然后返回一封接近可直接发送的邮件。Sonnet 5 跳过了这一步,给我了一个我可能会发的邮件外壳,但需要逐行重写。它只是做了这件事,但做得更糟。”

Katie Parrott,白天是被 AI 点化的写作者,晚上是氛围程序员
“我对 Sonnet 5 作为更快、更具迭代性的写作伙伴寄予厚望。但它太固执、太有主见,而且不够聪明,无法满足这个需求——尤其是当 GPT-5.5 就摆在旁边作为替代品时。我找不到一个场景能让它成为我的默认选择:在编程或工作流开发上,我不会用它替代 Opus 4.8 或 Fable;在需要我最依赖模型的那部分写作流程里,我又不够信任它。”

Jack Cheng,资深编辑与专业玩家
“我一开始真的很喜欢 Sonnet 5。它似乎能处理很多上一代 Sonnet 做不了、而 Opus 又太慢的协作式 UI/UX 打磨工作。它的回复直率而不机械;它是 Claude 系列里最有,怎么说呢,态度 的模型。但它为编辑任务抓取正确上下文的能力时好时坏。有时它会未经要求就去核对事实,从 Every 的文章库里抓取链接,有时则不会(而 GPT-5.5 可靠地两者都会做)。当 Fable 5 重新上线,我可以把它调到高速低力度的设置来跑 UI 工作时,我发现自己不知道什么时候还会再用 Sonnet 5。也许下周吧,等 Fable 离开 Claude Max 计划的免费额度之后。”
图例说明:
- 范式转变
- 对这个版本很兴奋
- 还行,但我不会每天用
- 垃圾版本
- 仅限付费订阅用户
编程:面对硬核工作,能力太弱
写作:散文笔法尚可,判断力靠不住
知识工作:在一个 Opus 4.8 的世界里做着 Opus 4.5 级别的活儿
自主行为:不可信的自主性
结论:一个能力尚可的模型,但整整迟到了一代
Katie Parrott 是 Every 的专职作者。你可以在她的 newsletter 里读到她的更多作品。
核心启示:Sonnet 5 陷入了一个在模型世界里最为尴尬的境地——在任何一个关键维度(价格、速度、智能)上,它都不是最优选,甚至不是次优解,这使得“中间路线”的定位实际变成了“无人问津”的处境。
Vibe Check: Sonnet 5—A Model Pitched for Everyone Impresses No One 的发芽报告
材料核心
Anthropic 将 Sonnet 5 定位为介于昂贵高智能与便宜低智能之间的“刚刚好”模型,但它在成本、速度和智能上均未明显超越 Opus 4.8、GPT-5.5 或开源模型,最终因定位模糊而两头落空。
发芽 01:定位陷阱——“刚刚好”为何成为最糟糕的位置
种子
Sonnet 5 的窘境并非单纯因为能力不足,而是它陷入了迈克尔·波特在 1980 年《竞争战略》中所警告的“夹在中间”陷阱。当产品既不提供绝对低价,也不具备差异化高价值时,用户会迅速流向两侧更极端的选择。材料中“既不够便宜去对抗开源模型,又不够聪明去挑战 GPT-5.5”的批评,正是这一经典战略失误的技术市场重演。
苹果在 2013 年推出的 iPhone 5c 提供了一个几乎平行的故事。iPhone 5c 被设计成介于旗舰 iPhone 5s 与更旧型号之间的“彩色中间款”,价格有所降低但并非真正的廉价机,性能接近高端却又刻意做了塑料外壳的降格。市场反应十分冷淡——追求顶级的买 5s,追求便宜的买打折的 iPhone 5 或安卓机。5c 在 2014 年便迅速减产,成为苹果少有的定位败笔。它与 Sonnet 5 共享同一个基因:为了照顾中间地带,主动阉割了最能说服用户走向极端的理由——要么更便宜,要么明显更强。波特指出,夹在中间的企业通常“低于平均利润”,因为它们试图服务所有人,却对任何人都没有足够的吸引力。在日新月异的模型市场中,这种“中庸”甚至会立刻被下一轮发布淹没。
Aha 瞬间
“当市场足够高效时,‘各方面都不错’就等于‘各方面都不够用’。谁都不想当第二选择,但中间产品就只能成为每个人的第二选择。”
发芽 02:自动化悖论——当代理能力跑在信任前面
种子
材料中多次提到 Sonnet 5 的代理行为不可靠:它会在缺少上下文时过早停止提问,在编程中陷入循环而不自知,写出的邮件只是外壳需全部重写。这暴露出一个更深层的产品问题:Sonnet 5 被赋予了更高的自主性,但智能水平不足以安全地驾驭这种自主性。这恰好踩入了人机交互领域的“自动化悖论”——当系统自动化程度越高,人在回退接管时就越缺乏情景意识,若系统出错,代价反而更大。
在自动驾驶领域,L3 级有条件的自动驾驶是这一悖论的最佳例证。L3 允许驾驶者松开双手,但要求他们随时准备接管。奥迪在 2017 年试图推出全球首款 L3 量产车 A8,最终因监管和可靠性争议而放弃。研究发现,L3 的“中间自动化”让驾驶者注意力涣散,接管耗时反而长于完全手动驾驶,事故风险不降反升,导致许多车厂(如福特、沃尔沃)直接跳过 L3 主攻 L4。Sonnet 5 的代理行为正处在类似的 L3 尴尬区:它表现得“足够自主让人想信任”,又“不够可靠到能放心不看”。这使得用户的工作流变成了持续的纠正和监控,而材料中 Kieran Klaassen 的反馈“它不断绕圈运行却不解决问题”正是这种消耗性半自动化的缩影。过去我们在自动化中追求“人类在回路”,但回路设计不当,回路就变成枷锁。
Aha 瞬间
“一个被赋予自主性但不值得信任的模型,不是助手,是随时会走错岔口的导航——你没法休息,因为你知道它会在最不该犯错的时候犯错。”
你的思考空间
- 如果 Anthropic 当初不把 Sonnet 5 作为“金凤花”模型推出,而是激进地定位为“最便宜的推理模型”或“最高效的代理模型”,它的市场评价会截然不同吗?
- 在什么类型的任务中,“中间模型”仍然有生存空间?这些任务是否正在被 AI 工具链的快速进化淹没?
- 当模型之间的能力差距不断缩小,“信任”作为差异化因素是否比原始智能更重要?Sonnet 5 的信任危机是暂时版本问题还是定位导致的永久伤口?
- 产品定位的“夹在中间”只是阶段性现象吗?如果下一代 Sonnet 突然在性价比上全面超越,市场会如何重写它的故事?
- 我们衡量 AI 模型时,是否过度使用“通用全能”的框架,而忽略了为特定工作流做极致优化的巨大价值?