Codex 开始进入工作现场

原文：https://every.to/context-window/codex-goes-to-work

大家好，周日快乐。如果这封 newsletter 是别人转发给你的，也可以订阅后直接收到。

知识库

Marcus Moretti 在《A Guide to Agent-native Product Management》中介绍了他如何以一人团队运营 Spiral。这篇指南讲的是两个新的 compound engineering skills：/ce:strategy 和 /ce:product-pulse。前者会通过访谈生成策略文档，后者用创始人风格的分析简报替代传统分析工具，并把结果保存到文件夹里，作为产品持续运行的记忆。

这篇文章适合用来理解这两个命令如何接入“计划—交付—复盘”的循环。它还补充了一个细节：Marcus 仍然亲自写 roadmap。换句话说，即便产品管理越来越 agent-native，路线图这种价值判断密度很高的东西，仍然需要人来承担。

Mike Taylor 的《You Are the Most Expensive Model》讨论的是 AI 成本纪律。许多团队把完整工作流都交给 frontier model，但其实更便宜、更快的模型也能完成其中不少任务。真正昂贵的并不只是 token，而是人的注意力。Taylor 提出“incremental determinism”，用四层框架判断哪些任务值得交给 Opus，哪些可以交给 Haiku、脚本，甚至不需要模型。

Katie Parrott 的《One App to Rule All Knowledge Work》则写到 Austin Tedesco 如今把 80% 的日常工作交给 Codex。几个月前，他还认为 Codex 对非工程师来说“很差”。文章还谈到为什么 Austin 会在目标应用里审查每个 agent 输出，如何让 agent 设计自己的自动化，以及如何用 Every 的 compound knowledge plugin 在计划执行前发现那些听起来很自信但实际错误的数据。

Laura Entis 的《Compute Is the New Cash》把话题带到 AI 经济学。在《AI & I》中，Stripe 数据与 AI 负责人 Emily Glassberg Sands 和 Dan Shipper 讨论了 agent 如何成为经济参与者，以及为什么欺诈已经不只是 checkout 阶段的问题，而是贯穿整个漏斗的问题。与此同时，GitHub 和 Anthropic 都在转向按用量计费，因为固定订阅模式正在被 agentic workloads 压垮。

Laura Entis 的《Who Isn’t Using GPT 5.5》则回顾 GPT-5.5 发布后一周 Every 团队的使用情况。Kieran 现在把时间平均分给 Codex 和 Claude Code；Natalia Quintero 做了一次 proposal head-to-head 测试，结果 Claude agent 赢了。文章还提到六位独角兽 CTO 转去 Anthropic 做 IC、Kieran 如何让 agent 夜里观看用户投诉视频并在一天内完成 24 个 pull requests，以及 Willie Williams 为什么说 AI 把写代码变成了老虎机。

Log on

Every 会举办关于 compound engineering 和 AI 写作的 camps 与 workshops，分享他们训练纽约时报、头部对冲基金等团队以及日常使用 AI 的经验。

上周的 Codex for Knowledge Work Camp 中，Dan 和 Austin 展示了如何用 OpenAI Codex 起草、研究、总结、并行运行任务，以及构建小工具来自动化知识工作中的重复环节。

Compound Engineering Camp 则由 Cora 总经理 Kieran Klaassen 和产品负责人 Trevin Chow 主讲，他们介绍了新变化，深入讲解 brainstorm 和 ideate 环节，并展示 compound engineering plugin 在产品工作流中的使用方式。

From Every Studio

Spiral 加入了版本历史。你现在可以查看一份草稿如何演变，并一键回滚到早期版本。它还发布了两个轻量 API endpoint，用于快速改写，并让 onboarding 流程更顺滑。

Cora 的 inbox 增加了星标视图、可输入的 snooze 时长、语音听写和更顺畅的 compose box，底层速度也有所提升。Kieran 正在寻找一小组 alpha testers，帮助测试完整 inbox。

Monologue 让 Apple Watch 上录制的音频可以同步到其他 Apple 设备。Mac app 在会议场景中也更好用了：会议结束时自动停止录音、允许更细地控制哪些 app 会触发录音，并新增 Webex 支持。

Alignment

这一节的标题是“速度的下游”。

美国食品药品监督管理局（FDA）本周宣布，两种癌症药物将把临床试验数据实时传输给监管机构：一种来自 AstraZeneca，另一种来自 Amgen。患者是否发烧？肝酶是否升高？肿瘤是否缩小？这些信号不再需要等临床医生在不同阶段之间收集、清洗、提交，FDA 将在它们发生时就看到。

FDA 的首席 AI 官估计，这可能把一种药物从实验室走到药房货架所需的时间缩短 20% 到 40%。

更快审批流程的下游影响，是更快知道一种药是否无效。制药公司研发预算中的很大一部分，实际上是在付钱让聪明人缓慢而昂贵地发现一个分子没有用；而当前系统往往把这种发现推迟到尽可能晚。有了实时数据，失败可能在第一年而不是第三年显现，患者也就有更宝贵的时间转向可能有效的治疗。

结构上，医学正在开始表现得更像软件。硅谷说“快速行动，打破东西”；医疗一直说相反的话，原因很明显：被打破的可能是人。作者 Ashwin Sharma 的判断是，AI 也许是第一个能让医学同时拥有两者的工具。

文章最后更正了一点：Monologue 可以在 Apple 设备之间同步音频，但不能接力一个正在进行中的录音。

核心启示：这期 newsletter 的主线是同一个变化：AI agent 不只是提高单点效率，而是在产品管理、成本控制、知识工作和医疗审批中，把“工作如何流动”本身重新改造成可观察、可分配、可加速的系统。

《Codex Goes to Work》的发芽报告

材料核心

这期 Every newsletter 汇总了 AI agent 进入真实工作系统后的几个侧面：产品管理开始 agent-native，AI 成本需要更精细的分层，Codex 正在被非工程师用于知识工作，医疗审批也因实时数据而更像软件流程。

发芽 01：Agent-native 产品管理不是“让 AI 写 PRD”

种子

Marcus Moretti 的案例很容易被误读成“一个人用 AI 做更多事”。但更深的变化是，产品管理正在从文档驱动变成记忆驱动。

/ce:strategy 负责把访谈转成策略文档，/ce:product-pulse 负责把分析简报保存成产品持续运行的记忆。这里的关键不是 AI 替你做了一份报告，而是产品工作有了一个可以被不断更新、检索、复用的记忆层。

Marcus 仍然自己写 roadmap 这一点反而很重要。它说明 agent-native 并不是把判断交给 AI，而是让 AI 承担信息整理、脉搏监测和上下文维护，把人的判断留在路线选择上。

Aha 瞬间

"Agent-native 产品管理的核心，不是 AI 替你决定方向，而是让方向判断终于建立在持续更新的产品记忆上。"

发芽 02：AI 成本的核心变量是注意力

种子

Mike Taylor 的“你才是最贵的模型”提供了一个很有用的反转：AI 成本不只是模型账单，而是人的注意力被如何消耗。

如果团队把所有任务都交给最强模型，看似省下了选择成本，实际上可能把人拖进更多审查、等待和纠错里。incremental determinism 的价值就在于，它要求你按任务的不确定性分层：有些任务需要 frontier model，有些任务只需要小模型，有些任务用脚本更好，有些任务根本不该调用模型。

这揭示了 agent 时代的新管理能力：不是“尽可能多用 AI”，而是知道什么时候不用最贵的 AI。

Aha 瞬间

"AI 成本纪律的第一步，是承认人的注意力也是计算资源，而且通常比 token 更贵。"

发芽 03：医学开始拥有软件式反馈回路

种子

FDA 实时接收癌症药物试验数据的例子，看似和 Codex、产品管理、知识工作不在一个频道，但它们共享同一个结构：反馈回路变短了。

过去，临床试验数据在阶段之间收集、清洗、提交，失败往往很晚才被发现。实时数据让系统更早知道药物是否无效，也让患者更早转向其他可能有效的治疗。

软件行业习惯快速反馈，因为错误可以回滚；医疗行业长期抗拒这种速度，因为错误会伤害人。AI 的意义在于，它可能让医疗在不牺牲谨慎的前提下，获得更快的观察能力。

Aha 瞬间

"当反馈回路足够短，速度不一定意味着鲁莽，也可能意味着更早发现错误。"

你的思考空间

我的工作里，哪些环节缺的不是 AI 产出，而是一个持续更新的记忆层？
我现在是否把太多低不确定性任务交给了昂贵模型？
在我的领域里，哪些流程一旦拥有实时反馈，就会从“阶段制”变成“软件式迭代”？