如何将 Fable 5 的效能发挥到极致

播客「AI & I」:Mike Krieger 谈 Anthropic 如何使用 Claude Fable 5
在我们深入探讨具体的工作流之前,先来看一个重要的视角。在最新一期播客《AI & I》中,Every 的 Dan Shipper 与 Instagram 联合创始人、现 Anthropic 实验室负责人 Mike Krieger 进行了对谈。他们讨论了使用 Fable 5 进行构建的真实感受——这个模型强大到足以迫使他重新思考生产力、工程学和创造性自主权的定义。
作为在前 GPT 时代构建了全球最受欢迎消费应用之一的人,Krieger 已经使用了 Fable 5 数月之久。他对于“产品开发周期被急剧压缩”这件事对构建者意味着什么,有着罕见的发言权。以下是这次对话的几个核心亮点:
- 更多的工作在“过夜”完成。 Fable 5 是第一个能力足够强大的模型,你可以交给它一项复杂任务,然后走开,相信它能在第二天早上之前完成。当它遇到障碍时——比如某个远程服务宕机了,或者某个工具停止工作了——它会自己编写变通方案并继续前进。这种韧性改变了 Krieger 的工作节奏:他现在的工作日结束方式是向模型简要说明在他睡觉时需要完成什么,而不是自己坐下来做。
- “你脑子里想的”和“世界上存在的东西”之间的鸿沟正在消失。 在获得 Fable 5 和一套内部 MCP(模型上下文协议)的访问权限后,Anthropic 的一位招聘人员这样描述她的体验:“这是我有生以来第一次感觉到,我脑子里想的东西和存在于世界上的东西是紧挨着的。我能直接把它做出来。” Krieger 认为,这才是新模型类别最有意义的地方——它让非工程师也能创造出他们完成更多工作所需的确切产品。
- 软件工程已死。软件工程万岁。 工程师们现在花更少的时间写代码,更多的时间在设定方向、审查 AI 智能体构建的内容,以及在产品出现问题时做出判断。产品经理和工程师之间的界限已经模糊。Krieger 说:“在我交谈过的一些优秀工程师中,他们有一种失落感,同时也有一种‘天哪,但我现在能同时完成海量的工作’的感觉。我们正在同时持有这两种想法。”
- 所有的目光都聚焦在验证上。 如果我们可以将更多工作委托给模型,那么检查它构建的东西在实践中是否有效就变得更加重要。Krieger 的方法结合了:对已知工作流的回归测试、视觉检查——包括给模型提供它自己工作的视频截图,以便捕捉到屏幕截图会遗漏的动画故障——以及为任何过于复杂而无法进行实时测试的内容准备的模拟后端。当一个 Bug 通过 Slack 传来时,Fable 5 会进行修复,发布拉取请求,然后在几小时后再进行跟进。
Every 团队如何使用 Fable 5
对 Fable 5 感到失望的最简单方法,就是把它当成 GPT-5.5 或 Opus 4.8 来用——后者是非常聪明的模型,但需要具体的指令和精心的提示才能获得最佳结果。不同的是,使用 Fable 5 的感觉更像是与一个能干的同事一起工作。至少,这是 Every 团队在一周测试后达成的共识。
Cora 的总经理 Kieran Klaassen 说:“感觉就像你的团队里有一位工程师,你刚把一个问题交给他,他就会自己想办法解决。”
这意味着,要从 Anthropic 这款首个面向公众的“神话级”模型中榨取最大价值,你必须像管理者一样思考:为模型提供背景信息、目标和检验工作的方式,然后让到一边。它甚至可能会偶然发现一个你从未考虑过的解决方案。
并非所有任务都值得这样对待。聪明的同事不便宜,Fable 5 也一样。以下是如何最大化利用这个强大的新模型,以及 Every 团队正在使用的一些工作流。
选择正确的任务
适合 Fable 5 的任务有四个特质:你能够给模型提供有组织的、深入的背景信息,一个定义明确的目标,一个关于“好”或“完成”的清晰定义,并且任务的重要性值得这个成本。
这个模型足够聪明,可以通过推理来解决复杂问题,并且喜欢将任务贯彻到底。但如果你的数据是错误的或过时的,或者你的目标相互冲突,它很可能会得出错误的结论。在使用早期那些能力较弱的模型时,这个问题没那么严重,因为你会在任务进行中更频繁地给予反馈,并可能发现这些错误。
AI 的高级用户——那些处于我们 AI 采用曲线的第七或第八级的人——已经能自如地将任务委托给他们的智能体。对于其他人来说,使用这个模型需要一种思维上的重构。工作方式从来回迭代,转变为前期投入大量精力来提供正确的背景信息和建立清晰的指令,然后让 Fable 5 去做它该做的事,只有当它完成整个任务后,你才去审查结果。以下示例是帮助大家入门的切入点。
示例 1:修复一个坏掉的工作流
Every 的高级工程师 Nityesh Agarwal 构建了一个 Claude Code 技能,来帮助 Every 的咨询团队创建 PPT 演示文稿的初稿。它能用,但总是遇到同样的障碍:文本框略微没有对齐,图片尺寸不对,有时页脚在一张幻灯片上更新了但在另一张上却没有。用 Claude Code 运行一次大约需要 30 分钟,消耗大约 1 亿个 token,而且还会带着错误回来。
Nityesh 让 Fable 5 去分析 Claude Code 的会话日志,并审查这个 PPT 技能是在哪里出了故障。Fable 5 找到了根本问题。在底层,一个 PowerPoint 文件实际上是一堆 XML 文件的集合,这些文件存储了幻灯片上所有内容的位置、大小、样式和顺序。之前的流程要求 Claude 直接编辑这些隐藏文件,所以像“改一下这个短语”或“把这张图片向左移动两英寸”这样的简单请求,都需要模型找到正确的隐藏文本,并在不干扰其他内容的情况下重写周围的布局代码。
为此,Fable 5 构建了一个命令行工具,为智能体提供了一种更自然的方式来处理 PowerPoint——例如,如果特定幻灯片上的文本需要更新,或者图片需要调整大小,智能体可以使用这个工具来进行这些有针对性的更改,而无需重写整个 XML 文件。
Nityesh 的心得:用 Fable 5 来诊断坏掉的工作流,创建修复它们的工具或技能,然后让更便宜的模型在未来直接使用那个基础设施。
Nityesh 的提示词:
这里有一个智能体尝试完成此工作流的会话日志:[描述工作流]。它在这些方面遇到了困难:[时间、成本、错误、糟糕的输出、重复的失败]。请退后一步,分析当前的工具、技能或工作流在哪里出了故障。失败的根本原因是什么,你会如何修复它?先制定一个计划。然后构建或指定升级方案。在同样的任务上测试它,并解释未来更便宜的模型可以如何使用它。
示例 2:创建市场推广策略
Every 的增长负责人 Austin Tedesco,第一次用 Fable 5 来生成本周模型发布的市场推广策略时,体验并不好。他让模型去 Slack 和 Notion 里寻找相关背景,但产出并没有明显优于他从 GPT-5.5 或 Opus 4.8 那里能得到的东西。“它很好地综合了我们所有人都说过的话,并汇编在一起。但我想,‘这个计划并不比我们本来会做的更好,’”他说。“它表现得像一个非常昂贵、非常啰嗦的执行助理。”
在第二次尝试中,Austin 花了更多精力来构建一个更复杂的问题。他要求 Fable 去查看大量的 Every 受众洞察——调查结果、PostHog 数据、品牌定位工作——并根据 Every.to 网站的实际体验来审计它们,同时还要考虑团队的季度计划和内部目标。然后,他给了它一个明确的业务目标:在那些目标客户画像中增加付费订阅。
他也更具体地提出了他想要的结果:一份 Notion 报告,包含 10 个可能改变团队运作方式的数据洞察,外加一份按优先级排列的、Every 应该交付或尝试的 10 件事的列表。
结果的差异是惊人的。“Dan 和我一直在说,‘这太疯狂了,’”Austin 说。“如果我们雇了一位市场推广工程师来做这件事,而他们在两周内完成了这样的成果,我们会说,‘这真是一次了不起的招聘。’”
Austin 的心得:当你给 Fable 5 一个复杂的问题、对相关事实来源的完全访问权限、一个明确的目标和一个具体的输出格式时,它在知识工作上的表现会好得多。 如果你让它“制定一个计划”,它可能只会总结人们已经同意的事情。如果你要求它用数据来检验假设,并产出一份有优先级的决策列表,结果会精准得多。
Austin 的提示词:
使用附加的源文件包来分析 [业务领域/发布/受众/漏斗]。来源包括:[调查数据、客户研究、分析仪表盘、网站上下文、规划文档、会议记录、Slack 讨论、内部目标]。我们的目标是为 [目标客户/画像] 实现 [具体的业务目标]。不要只是总结内部共识。使用数据和源材料来检验我们的假设,并确定应该改变什么。 产出:
- 10 个最重要的、可能改变我们运作方式的洞察。
- 一个按优先级排列的列表,包含 10 件我们应该交付、尝试或停止做的事情。
- 每条建议背后的证据。
- 任何数据源冲突、过时的规则、不明确的分析定义,或是我在行动前应该核实的假设。 如果你发现某个结论严重依赖于某个单一的数据源或项目规则,请标记出来,并解释你将如何检查其真实性。 /lfg——这个命令会将智能体送入一个完整的复合工程工作流,包括规划、构建和审查。这是让 Fable 发挥最大作用的可靠方法。
示例 3:将反馈转化为批量修改
在 Fable 5 之前,Kieran 只信任智能体处理那些范围狭窄、定义明确的产品修复,比如让一个键盘快捷键生效,或通过屏幕录制解决一个 Bug。他更广泛的工作流早已就位:从 Slack 或视频中提取反馈,交给智能体,然后在最后审查结果。他称之为“AI 三明治”:人在开始,机器在中间,人在最后。
上个周末,Kieran 让 Fable 5 把他的一位同事过去两天在 Slack 上关于 Cora 的所有发言都拉出来,进行分析,并列出一份产品修复清单。他的智能体处理了所有的修复,Kieran 在最后检查了结果。在一次运行中,他批量完成了 30 项修复,并让智能体检查这些变更不会互相干扰,而这原本需要他逐一审查 10 个小任务。
现在,他正在构建下一层:让智能体按计划自动从 Slack 中提取产品反馈,根据 Cora 的愿景文档和用户画像对其进行评估,找出那些似乎值得做的修改,并将其提交给他审批。
这种循环的质量取决于原始材料的质量。屏幕录制很有用,因为它们向模型展示了书面 Bug 报告经常遗漏的内容,比如用户点击了什么、接下来发生了什么,以及这与他们的预期有何不同。Slack 也可以作为信号来源,特别是当评论来自具有很强产品判断力的人时。
Kieran 的心得:当工作与反馈循环相连接时,Fable 5 是最强大的。 模型可以收集、分组并根据反馈采取行动,但结果的质量仍然取决于输入的质量。他的角色是决定哪些想法值得付诸行动。
Kieran 的提示词:
从这些来源收集关于 [产品/功能/工作流] 的产品反馈:[Slack 频道、支持工单、屏幕录制、屏幕截图、生产日志、客户电话、会议记录]。将反馈按主题分组。识别出:
- 什么是明确可执行的
- 什么需要在行动前由我判断
- 什么与我们的战略、用户画像或产品方向相冲突
- 你使用了哪些证据 对于可执行的项,创建一个批量计划。如果你有工具和批准来进行更改,请将它们一起实施。确保修复之间不会冲突。完成后,向我展示什么发生了变化,你跳过了什么,什么仍需要我审查,以及你是如何验证工作的。
示例 4:从一个原始计划开始构建
几年前,Every 的平台负责人 Willie Williams 为一位朋友建了一个网站。这位朋友当时正在学习成为一名治疗师,她需要一个更好的方法来创建“家谱图”——一种在治疗接收流程中使用的、带有注释的家谱。最初的版本花了他几周时间,而且还有一个顽固的 Bug:运行时,网站会变得越来越慢,直到崩溃。
Willie 之前曾尝试用其他模型来解决这个问题,但都无济于事。Fable 5 第一次尝试也没能解决。当 Willie 让它只看代码时,它自信地建议了一个修复方案,但不起作用。然后,Willie 告诉 Fable 5 在本地运行这个应用,观察正在发生什么,并从那里面找出解决方案。一旦模型能看到网站在运行,它就修复了这个 Bug。
在那之后,Willie 给了 Fable 5 一个更大的任务:在不查看他已经构建的版本的情况下,使用原始的规格说明从零开始构建这个产品。这个规格说明包括了:产品是为谁服务的,用户需要创建什么,可视化工作区应该如何表现,以及应用需要处理的各种边缘情况。Willie 用同样的测试对比了 Opus 4.8、GPT-5.5 和 Fable 5。Fable 5 的表现明显优于 Opus 和 GPT-5.5。
Willie 的心得:Fable 5 非常适合这样一类任务——你可以给它与给一位高级工程师相同的材料: 产品目标、相关的领域背景、棘手的边缘情况,以及对第一个版本需要做什么的清晰认知。它可以根据计划工作,做出判断,并在不需要人指导每一步的情况下产出第一个版本。
Willie 的提示词:
我希望你构建 [产品/网站/工具] 的第一个工作版本。 这是原始产品规格:[粘贴规格] 这是为谁而做的:[用户] 这是你需要的领域背景:[术语、工作流、示例、约束] 这是产品必须处理的棘手情况:[边缘情况] 这是第一个版本需要做到的事情:[需求] 这是目前可以粗略处理的地方:[范围边界] 先制定一个计划。然后构建第一个版本。在本地运行它,或者在它将被实际使用的环境中进行测试。完成后,向我展示如何试用它,你做了什么决策,你省略了什么,以及我应该仔细审查什么。
成本只是决策的一部分
Fable 5 功能强大——且价格昂贵。该模型将在 Claude 的付费计划中提供至 6 月 22 日,之后将转为基于 token 的定价。(它的定价是每百万输入 token 10 美元,每百万输出 token 50 美元,大约是 Opus 4.8 成本的两倍,是 Sonnet 4.6 成本的三倍。)
但成本只是决策的一部分。Fable 5 也很慢,尤其是在你以更高的努力水平运行时。所以,它最适用于那些大型、复杂、可委托的任务,即那些你可以信任模型去完成并稍后审查的任务,比如修复一个坏掉的工作流、构建一个功能或应用、综合大量的源材料,或审查一个代码库。对于快速编辑、小 Bug 修复和来回的头脑风暴,更快、更便宜的模型仍然是更好的选择。
核心启示:Fable 5 代表了人机协作范式的根本转变——从手把手的实时指导,转向前期的目标设定与后期的结果审查。要驾驭这一转变,使用者必须学会像管理者一样分配任务:提供深度的上下文、清晰的目标和明确的完成标准,然后敢于放手。它的最大价值不在于替代人类的直接操作,而在于能独立完成复杂的、端到端的委托任务,前提是你需要为它框定一个值得其高昂成本和运行时间的复杂问题。
“How to Get the Most Out of Fable 5” 的发芽报告
材料核心
Fable 5 不是需要精心提示的工具,而是一个需要被管理的“能干同事”。Laura Entis 通过 Every 团队的真实使用案例揭示了一个关键模式:当 Fable 5 表现平庸时,往往是因为用户仍在使用旧模型的心智框架;当它表现惊艳时,是因为用户学会了像管理者一样思考——前置地提供上下文、目标和验证标准,然后退后一步。
发芽 01:从“提示工程”到“任务委托”——人机协作的认知跃迁
种子
这篇文章最深刻的主张不是技术性的,而是认知性的:面对 Fable 5 这类模型,人的核心能力从“知道怎么说”转向“知道要什么”。这不是效率的提升,而是协作模式的结构性变革。
这个转变早有先例。1984 年,社会学家 Shoshana Zuboff 在 In the Age of the Smart Machine 中描述了信息技术引入工作场所时的一种隐秘冲突:工人不再凭借身体经验即可判断机器状态,而必须学会解读屏幕上的抽象符号。她称这种转变是从“行动导向”到“符号中介”的跃迁。Fable 5 带来的认知挑战与此类似,但方向相反——过去的自动化要求人学会读懂机器;今天的 AI 要求人学会向机器说清自己的意图,然后克制住插手的冲动。
Austin Tedesco 的两次 GTM 策略尝试是这种认知跃迁的缩影。第一次,他让 Fable 5 自己去 Slack 和 Notion 里找上下文,模型产出了一份“昂贵、冗长的行政助理式”摘要——因为它没有足够的结构来辨别什么是真正的张力。第二次,他给了模型受众数据、分析仪表盘、品牌定位材料,以及一个需要打破共识的问题。输出变得“疯狂得好”。区别在于第一次是“帮我想想”,第二次是“用这些数据检验我们的假设”。
这与管理学中 Peter Drucker 在 1967 年提出的一个概念形成共振:知识工作者的核心产出不是体力劳动,而是决策质量。当 Drucker 说“效率是把事情做对,效能是做对的事情”时,他在描述一种不可压缩的人类判断。Fable 5 压缩了从决策到执行的路径,但判断什么值得做、什么是“好”的标准,仍然需要人来输入。
Aha 瞬间
“你给它要总结的东西,它给你一份平庸摘要;你给它要打破的假设,它给你一个让你不停说‘太疯狂了’的报告。模型的能力没有变,变的是任务结构本身。”
发芽 02:用 Fable 5 来构建基础设施,而不是直接完成工作
种子
Nityesh Agarwal 的 PowerPoint 案例揭示了一条更微妙的使用策略:Fable 5 的最高杠杆用途不是替代人做任务,而是诊断系统断裂点并构建工具,让更便宜的模型和更普通的人之后能完成同样的任务。这是一种元层面的能力。
这让人想起 1851 年的一场制造业革命。那一年,在伦敦水晶宫举办的世界博览会上,美国军火制造商展示了一种“可互换零件系统”——滑膛枪的零件可以从任意一把枪上拆下来,装到另一把枪上使用。这在当时是制造哲学的根本转变:不再要求每个人都是技艺精湛的工匠来从头打造每把枪,而是建立一个标准化的约束系统,让普通工人也能组装出可靠的武器。
Nityesh 的做法是现代的“可互换零件”思维。他发现 Claude Code 代理在直接编辑 PowerPoint 的 XML 文件时会不断出错——对齐稍有偏差、图片尺寸不对、页脚只在某些幻灯片上更新。这相当于让每个工人都凭手感制作自己的零件,误差不断累积。Fable 5 没有被要求“修好这个 PPT”,而是被要求“找出工作流程为什么总是断”。它诊断出根本原因——直接操作底层 XML 让模型每次都要重写整个布局代码——然后构建了一个命令行工具作为“标准化接口”,让之后的代理可以通过这个工具做精准修改,而不是每次都从头处理 XML。
Nityesh 的结论是:用 Fable 5 诊断并修复基础设施,然后让更便宜的模型运行在新基础设施上。这意味着 Fable 5 的真正价值不只是 5 倍于 Opus 的“智商”,而是它具有了系统级思维——它能看到一个工作流在哪一步反复断裂,并提出结构性解决方案。
Aha 瞬间
“当你发现自己在反复修复同一个问题的不同变体时,别让 AI 去修下一个变体——让它找出为什么每次都会出现变体,然后建一层不会再断裂的东西。这是从‘修 bug’到‘修 bug 产生的条件’的跃迁。”
发芽 03:反馈即燃料——为什么模型的真正限制是输入质量
种子
Kieran Klaassen 的反馈批处理案例和一个反例(Willie 的 bug 修复)共同指向一个更深层的原则:Fable 5 的自主能力很强,但它的判断质量严格受限于它能看到什么。这不仅是关于 AI 的陈述,更是关于组织知识如何被外化的陈述。
心理学家 Gary Klein 在 1990 年代研究消防员、护士和军事指挥官如何在高压下做决策时,发现了一个反直觉的现象:专家不比较选项,他们识别模式。一个消防队长走进着火的房子,不是因为分析了 5 种逃生方案,而是因为厨房地面的热感不对且火焰声音异常低沉,让他直觉般触发了一个“赶紧撤”的响应。Klein 称之为“识别启动决策模型”(Recognition-Primed Decision Model)。这种能力极度依赖输入的完整性——如果队长看不到火焰颜色,听不到异常声音,模式就不会被触发。
Fable 5 在这个意义上就像一个模式识别的专家。当 Willie Williams 让它修复一个会导致网站逐渐变慢直至崩溃的 bug 时,模型最初只看代码,给出一个“自信但无效”的修复。只有当 Willie 让它运行应用并在本地观察行为时,模型才看到了代码审查时不可见的模式,并成功修复。同样,Kieran 强调屏幕录像比文字 bug 报告更好,因为录像显示了“某人点了什么、接下来发生了什么、以及这与预期的差异”——这些信息在文字报告中往往被遗漏。
组织理论中有一个概念叫“吸收能力”(absorptive capacity),由 Wesley Cohen 和 Daniel Levinthal 在 1990 年提出:一个组织能否利用外部知识,取决于它已经积累了哪些内部知识。Fable 5 的黑箱版本是:它的“吸收能力”取决于你喂给它的原始材料是否足够丰富。给它 Slack 消息,它看到共识;给它屏幕录像和日志,它看到故障机制。
Aha 瞬间
“Fable 5 不是被它的训练数据限制了,而是被你的输入材料限制了。它是一面镜子——你给它模糊的信号,它还你平庸的决策;你给它丰富的实录,它还你这个组织看不到的结构性问题。”
你的思考空间
- 如果 Fable 5 让你从“怎么做”中解放出来,你现在卡住你的瓶颈是“不知道要什么”还是“不知道什么是足够好”?这两者需要完全不同的能力来应对。
- Nityesh 的元工具策略暗示了一种新的职业活动:不是造东西,而是造“造东西的系统”。如果你现在的所有工具有一个会反复断裂的共同点,那是什么——你能否用 Fable 5 去诊断和替换那一层?
- Kieran 说 Fable 5 最强大的时候是“与反馈循环相连”。你的工作中,哪些反馈已经存在但从未被系统收集过(比如屏幕录像、操作日志、用户失败的无声时刻)?如果 Fable 5 能消费这些信号,你会在哪里发现最大的盲区?
- Mike Krieger 描述了工程师现在同时感到“失落”和“能做疯狂多的工作”——这种矛盾情感是否也出现在你的领域?如果是,你对这两者的权重各是多少?为什么?