AI 无处不在,无时不有
Anthropic 的 Mythos 级模型 Fable 5 已经发布,这意味着我们正在探索如何从这款能力超强又极其耗费 token 的模型中获得最佳成果。今天,四位 Every 团队成员分享了他们的使用方法,同时我们将八个 Fable 工作流打包成了你可以亲自测试的提示词。此外,Monologue 的总经理 Naveen Naidu 从苹果开发者大会现场发回报道,讲述了为什么 Siri 终于——注意——变得好用了,而平台主管 Willie Williams 则认为,即便是最强大的大语言模型(LLM,Large Language Model),有一件事它始终无法做到,那就是感知“氛围”(Vibe)。
Every 内部观察
Fable 5 与其他模型的较量
每当有重要新模型发布时,人们总会面临重新审视自己 AI 配置的压力。或者,如果你刚结束一场冥想静修,甚至会开始重新审视自己的整个人生。
你应该把自己偏爱的模型换成最新发布的这个吗?如果新模型的控制环境不是你喜欢的类型,它是否足够优秀到让你做出改变?
Fable 5 让 Every 团队陷入了一轮新的存在主义拷问。对于某些项目——那些规模庞大、复杂且可以委托出去的——Fable 5 显然是首选,而对于另一些项目来说,它可能是一个性价比很低的糟糕选择。
经过一周的测试,我们 Every 的大多数人都确定了一种双轨策略:在处理雄心勃勃的艰巨任务时启动 Fable,让它自行运转;而在处理规模较小、需要迭代的任务时,则选择你最顺手的编程代理(coding agent)。
增长主管 Austin Tedesco 的解析: Fable 5 要求“一种截然不同的知识工作处理方式”,这需要你精细调整你期望模型产出的结果,明确它执行任务所需的信息,并给予充分信任,然后放手让它独立运算。
到目前为止,Austin 只在那些可以运行四个小时以上的“火箭筒”级项目上使用 Fable 5,比如构建一款 NBA 管理层模拟游戏,或者在夜间执行增长策略的研究与实验。在使用该模型时,他通常采用复合工程(compound engineering)的 LFG 流程,即让代理(Agent)进行头脑风暴、制定计划、执行工作、审查结果,然后不断重复这一循环。
Codex 应用仍然是他日常工作的主力。Austin 设置了一套流程:当会议结束时,Codex 会检索行动项,判断自己能否独立处理其中的某些事项,如果可以,就开启一个新线程去完成这些工作。他还将 Codex 与 Spiral MCP 结合使用,用于起草 Every 的社交媒体文案、内部战略文件以及大多数当日任务。
Austin 当前的配置。(图片由 Austin Tedesco 提供)
Cora 总经理 Kieran Klaassen 的解析: Kieran 喜欢的工作方式是所谓的“AI 三明治”——他设定任务,机器去执行,然后他审查结果——这正是使用 Fable 5 的理想配置。他的流程没有改变,但 Fable 5 在处理复杂的多步骤任务上展现出的卓越能力,意味着这套配置的效果比以前好得多。
Fable 5 已成为 Kieran 在“三明治”中间层的主力模型。在“面包”阶段,他通常使用 Cursor 进行头脑风暴和精细化打磨。而对于那些可以委派给代理并在之后审查的独立小任务,他则使用 Codex CLI、Claude Code CLI 或 Cursor 的托管代理。
Kieran 的入选配置。(图片由 Kieran Klaassen 提供)
平台主管 Willie Williams 的解析: Willie 至今仍在摸索他的配置方案。在 Every 的《高级工程师基准测试》中,Fable 碾压了其他模型,但它速度太慢且过于耗费 token,因此算不上一名好的协作者。“我是否应该接受一个能力稍弱模型的缺点,因为我知道,当我们进入协作关系中的迭代环节时,与它互动会更有乐趣?”
目前,Codex 应用依然是他处理大部分日常工作的平台。他花了大量时间在应用内搭建自己的工作环境:“我可以让一个线程与另一个线程对话,那个线程再去和第三个线程对话——这构成了一流的工作流,让我能随时掌握全局动态。”
他计划用那些通常会分配给资深工程师的任务来测试 Fable 5 的极限,比如让它审查整个代码库以及一长串的产品待办事项清单,并寻找一个能一次性解决多个问题的精巧修复方案。
技术咨询主管 Mike Taylor 的解析: 只要有更优秀的模型出现,Mike 就会立即围绕它重组自己的工作流。Mike 计划通过围绕宏大循环(ambitious loops)构建的任务来考验 Fable 5,例如,让它依据一份目录逐章撰写一本技术类书籍,并在继续下一章之前,依照编辑准则检查每一章节。“我仍然会使用 Codex,但主要是出于一种‘我应该尝试所有不同的东西’的责任感,”他说道,“如果我不是在一家需要我们对此有明确意见、因此必须尝试一切的公司工作,我大概只会使用 Fable。”(作为一名 AI 早期采用者,Mike 乐于为最好的新模型付费——他已经在个人项目中为自己购买了 Claude Max 套餐。)
一个重要警示:Mike 发现并告知了咨询团队的其他成员,Fable 不能用于为客户完成的工作。咨询工作往往涉及机密信息,而 Fable 的模型环境可能会在当前任务之外的上下文中保留信息,这违反了现有的保密协议(NDA)。
Fable 提示词入门包
我们将八个最出色的 Fable 工作流打包进了一个可直接复制的提示词库,其中包括:
- 由 Anthropic Labs 负责人 Mike Krieger 启发创作的四个提示词
- 由 Every 团队测试过的四个工作流
- Dan Shipper 与 Mike 的完整采访记录,内含内部 Fable 使用技巧
- 可轻松下载并分享给你的代理的文件
想要了解更多,请在东部时间明天中午12点加入我们的 Fable 5 训练营。
信号
苹果 AI 的回归?
多年来,苹果一直是 AI 领域的众矢之的。它一些最受期待的 AI 功能从未兑现,而 Siri……唉,一言难尽。
然而,在今年全球开发者大会(WWDC,Worldwide Developer's Conference)现场,气氛却变得乐观起来。据 Monologue 的总经理 Naveen Naidu 称,在苹果与谷歌(Google)合作构建了新的模型系列后,Siri 终于——注意——变得好用了。Naveen 在现场测试了 Beta 版本,他对此很有发言权:作为 Every 语音听写应用的唯一主力开发者,Naveen 运营着一个基于自己微调模型的产品。
发生了什么: 苹果展示了一款改进后的设备端模型,能够处理诸如设置闹钟之类的简单任务。这给测试了10分钟的 Naveen 留下了深刻印象。更复杂的请求,例如预订机票、总结长篇 Slack 讨论串或搜索用户的文字记录,则可以通过私有云计算(Private Cloud Compute)进行路由,这是苹果为运行更大规模 AI 模型而设计的注重隐私的云系统。苹果公司正在通过其开发者工具包,向 iOS 应用下载量低于 200 万的开发者免费提供这些模型的访问权限。
为何重要: 免费访问改变了许多开发者的经济账。如果 AI 功能是在用户的 iPhone 或 Mac 上运行的,那么应用开发者就不必在每次有人使用时向 OpenAI、Anthropic 或谷歌付费。这可能让那些此前无法负担月度模型账单的应用能够集成 AI 功能。“人们可以开始创造出色的体验,而不必再为成本忧心,”Naveen 说道。
他对于亲自测试这一点感到很兴奋。如果能将 Monologue 的一些功能迁移到苹果模型上,其每月的 token 费用将会缩减。“显然,我需要测试它的速度是否足够快,是否满足我的限制条件,”他说,“但如果它是免费的,我会尝试一下,看看能否借此构建出新的体验。”
苹果对开发者的吸引力似乎正在奏效。Naveen 与一些参加了几十年大会的与会者进行了交流,他们的共识是:“苹果给人的感觉平易近人多了。”
工具聚焦
Unicorn Studio
如果你觉得 Every 的网站看起来很酷——我可能有点偏心,但它确实是百分之百的酷——这在很大程度上要归功于高级设计师 Daniel Rodrigues 。正是他创作的定制图形,让 Every 的文章读起来像是一种体验,而非静态文章。
为了制作每期 Vibe Check 搭配的动画主角图(hero images)和互动式背景,或是像 Dan 那篇关于“自动化为何是神话”的超过 8000 字的文章这类宏大专题的视觉设计,Daniel 求助于 Unicorn Studio。
这款 WebGL 工具 让设计师无需编写任何代码,就能构建动画化的、类似 3D 效果的网页图形。在为 Every 最近一期关于 Anthropic Mythos 级模型的 Vibe Check 做设计时,Daniel 收到的指示是创造一种“星云般的氛围,如同太空”。
Unicorn Studio 让他轻松实现了这一构想:
Daniel 为 Fable 5 发布制作的图像。(图片由 Daniel Rodrigues 提供)
以下是他近期使用该工具创作的其他几件作品:
Daniel 为 Opus 4.8 发布制作的“奶酪风”图像。
Daniel 为一篇比较 Claude 和 Codex 的文章制作的图像。
参差前沿
LLM 提供选项,我来供给“氛围感”
我让我们的 AI 写作助手 Spiral 为一篇文章生成20个开头句子。第16句就是我要的。我说不出为什么,我就是知道。
毫无疑问,AI 有能力生成天才之作。它能在我喝完咖啡之前就建起代码的高塔,写出整篇整篇的草稿。模型的执行能力没有上限,但它无法判断这些成果是否真的优秀。
而这种判断能力至关重要。真正创造性的工作,是一种从 A 点直接跳到 D 点的行为,中间除了“它能与其他人类产生共鸣”之外,没有别的解释。
什么是“氛围感”(Vibes)?氛围感是我们在直觉上锁定并共鸣于他人能量场的能力;它让我们依靠作为人在世间生活、以人类的思维方式思考的一辈子经验,去直觉到此时此刻,在这个确切的文化瞬间里,什么才是重要的。正因我们能感受到它,我们才能预测其他人是否也会感受到它。
大语言模型(LLM)不按我们的方式思考;它们无法回应我们的能量。无法共鸣,无法感知“氛围”。而没有了感知氛围的能力,它们就如同盲人,虽然能产出伟大的成果,但也同时会制造平庸之作,且没有能力识别二者的区别。
因此,如今我与 AI 的协作方式很简单:它提供选项,我供给氛围感。我们协同工作。但是,当它从训练集中挖掘解决方案时,氛围感并不在其中——它在我的心里。—— Willie Williams
核心启示:随着能力越强的模型出现,个人工作流的编排正从“选择唯一主力模型”转向“按任务复杂度分层调用”;但无论模型在代码和逻辑上多强,创作中真正关乎价值判断、文化共鸣和最终裁决的那部分,仍牢牢掌握在人的直觉手中。

AI Everywhere, All at Once 的发芽报告
材料核心
在新一代超强模型面前,Every 团队的成员正在重构自己的工具组合:Fable 5 负责“火箭筒式”的大任务,Codex 等轻量代理处理日常迭代,而苹果通过免费设备端模型悄然改变开发者的成本方程式。文章最终落脚于一个关键提醒——AI 可以无限输出,却无法判断好坏,真正的“氛围”仍掌握在人类手中。
发芽 01:最强模型不是唯一模型——重新理解“工具生态位”
种子
材料中,Austin、Kieran、Willie 都没有把 Fable 5 当作唯一选择,而是以“二刀流”的方式,把不同模型安排在不同的任务层次上。这看起来像是效率选择,实质上是一次关于“能力过剩与适配成本”的再平衡。当一个模型具备“全栈能力”时,用户恰好会主动把它放回一个受限的生态位,和自己的速度、成本、安全感进行协商。这种协商形态,在技术史上一再重演。
故事
2003 年,当 IBM 的深蓝继任者、“网格计算”系统已经可以在数秒内完成气象模拟时,美国国家气象局仍然保留了一套基于 1970 年代 Fortran 代码的轻量预报脚本。原因不是算力不够,而是“认知成本”——预报员需要随时手动微调参数,而巨型系统每次冷启动和解读输出都需要专家组介入,那种笨重让它在洪水逼近时反而不如旧程序可靠。类似地,1980 年代桌面排版革命中,最顶尖的设计工作室——像 Pentagram 的西岸分部——会将长文案和字体微调放在 Mac 上完成,色彩校正和超大文件平滑处理则特意留给一台 Silicon Graphics 工作站。两种工具并行,不是因为买不起更贵的一体机,而是因为“全能”在当时意味着每一项都慢一拍。
今天,Fable 5 的上下文留存能力已经超出大部分日常任务的需要,但它的延迟和 token 消耗恰好制造了和人配合的“间离效应”——像一位需要提前预约、只在关键时刻出手的顾问。Austin 的四个小时“火箭筒式”作业、Kieran 的“AI 三明治”中段,都是把过剩能力重新包装成“高价值、低频率”的调度策略。这和天气预报员保留 Fortran 脚本的逻辑一致:在连续工作流里,“足够好”加上“零等待”往往战胜统计学意义上的“最优”。
Aha 瞬间
“最强大的模型真正的用法,不是你让它做一切,而是你学会故意不用它。”
发芽 02:免费的背后——苹果正在把 AI 战场拉回生态战的旧战场
种子
文章提到,苹果给下载量低于 200 万的小开发者提供免费设备端模型,Naveen 直指这会彻底改变成本计算。这不是一次慈善,而是一场经典的“生态护栏”构筑。苹果的免费并不新鲜,但它每次免费之处,恰好都是它想要控制入口的地方。
故事
2008 年,苹果推出 iPhone SDK 时,开发者需要支付 99 美元年费——这看起来是在收费。但真正免费的武器藏在另一个角落里:Safari 的 WebKit 引擎和后来的 Metal 图形 API,完全没有额外授权费。结果是什么?当 Google 的 Android 以“开源免费”抢市占时,重度游戏和创意工具开发者仍然愿意留在 iOS,因为他们用 Metal 写的渲染管线可以在一代代 iPhone 上以近乎零边际成本运行,而 Android 阵营在相当长时间内因图形层碎片化消耗了他们的利润。
现在同样的剧本在 AI 层重新上演。苹果把小型推理模型免费部署在 iPhone 和 Mac 上,立刻就把 Siri 的竞争对手(比如独立的语音转录 App、小型 AI 助理)拖进一场它们赢不了的消耗战——因为独立开发者不能自掏腰包每次调用付 OpenAI 或 Anthropic。免费 API 一出,天平倾斜:开发者会优先测试苹果模型,即使用起来稍微笨拙一点,只要成本被抹掉,他们就会围绕它设计功能。久而久之,苹果就会像当年用 Metal 绑定游戏开发者一样,用免费 AI API 绑定新一代应用层——Siri 变成一个能够调用应用内功能的“中枢代理”,而应用开发者变成苹果智能生态的“数据器官”。
Aha 瞬间
“AI 的战争,又一次从模型能力转向了‘谁能为开发者买单’。”
发芽 03:AI 无法鉴别的“氛围”,正是默会知识的最后堡垒
种子
Willie Williams 说,AI 可以提供 20 个开头,但他就是“知道”第 16 个是好的,却说不清为什么。这篇文章因此断言:AI 无法“感受氛围”。把这种感觉放在更广的视角下看,它保护的正是迈克尔·波兰尼所说的“默会知识”——我们知道的,远比我们能说出来的多。每一次“我知道它就是这一句”不只是审美,而是大量身体化经验在意识无法捕捉的速度下完成的综合判断。
故事
1950 年代,波兰尼在《个人知识》中用一个经典例子阐述默会知识:没有人可以通过科学公式学会骑自行车。骑车的平衡涉及微小的肌肉调节和感官反馈循环,这些细节没办法被完全编码成明确的规则,即使物理学家能写出力学方程,也无法把“该怎样用力”转化成初学者的即时行为。骑车的人永远知道得多,比他们能对工程师说出来的要多。
在创意领域,这种“知道得更多”表现得更为极端。1980 年代,索尼的 CD 研发团队要确定标准光盘长度,团队给出的技术指标是 60 分钟,而公司传奇人物大贺典雄坚持要 74 分钟——因为他希望一张 CD 能完整装下贝多芬第九交响曲,而且不许压缩指挥卡拉扬的慢速版本。没有任何算法可以推导出“74 分钟必须”,这是一个基于音乐体感、仪式感和文化记忆的背景判断,完全属于“氛围”的领地。同样,Willie 对第 16 句的确认,是人类大脑在不知不觉中完成了音韵、节奏、读者心理预期、品牌调性的超高速匹配,这种匹配来自他作为人在世界中的存在史——而模型能批量生成选项,却永远无法“身体化”地活过任何一个时代。
Aha 瞬间
“AI 给你的永远是选项;但做出选择的那一瞬间,你已动用了整个生命中无法被转录的部分。”
你的思考空间
- 当所有复杂任务都可以被“委托”给 AI,人类是否会因为长期不亲自执行,而失去那种判断“什么值得委托”的默会直觉?
- 苹果免费 AI 模型一旦成为开发者的首选基础设施,会不会导致独立模型开发商像 PC 时代的浏览器那样,最终只留下两三个生存者?
- 如果 AI 的工具生态位越来越像人类专家网络——有的速度快,有的深度强——我们是否需要一套新的“任务转诊”协议,来决定何时应由人接管?
- “氛围”是否真的是人类不可被替代的最后一道防线,还是它其实也可以在未来通过长期的人类反馈微调,被部分迁移给模型?
- 面对不断膨胀的模型能力,你个人的“火箭筒/小刀”分界点在哪里——什么任务你绝不交给 AI,哪怕它再强?
