Codex 开始进入工作现场

原文:https://every.to/context-window/codex-goes-to-work


大家好,周日快乐。如果这封 newsletter 是别人转发给你的,也可以订阅后直接收到。

知识库

Marcus Moretti 在《A Guide to Agent-native Product Management》中介绍了他如何以一人团队运营 Spiral。这篇指南讲的是两个新的 compound engineering skills:/ce:strategy/ce:product-pulse。前者会通过访谈生成策略文档,后者用创始人风格的分析简报替代传统分析工具,并把结果保存到文件夹里,作为产品持续运行的记忆。

这篇文章适合用来理解这两个命令如何接入“计划—交付—复盘”的循环。它还补充了一个细节:Marcus 仍然亲自写 roadmap。换句话说,即便产品管理越来越 agent-native,路线图这种价值判断密度很高的东西,仍然需要人来承担。

Mike Taylor 的《You Are the Most Expensive Model》讨论的是 AI 成本纪律。许多团队把完整工作流都交给 frontier model,但其实更便宜、更快的模型也能完成其中不少任务。真正昂贵的并不只是 token,而是人的注意力。Taylor 提出“incremental determinism”,用四层框架判断哪些任务值得交给 Opus,哪些可以交给 Haiku、脚本,甚至不需要模型。

Katie Parrott 的《One App to Rule All Knowledge Work》则写到 Austin Tedesco 如今把 80% 的日常工作交给 Codex。几个月前,他还认为 Codex 对非工程师来说“很差”。文章还谈到为什么 Austin 会在目标应用里审查每个 agent 输出,如何让 agent 设计自己的自动化,以及如何用 Every 的 compound knowledge plugin 在计划执行前发现那些听起来很自信但实际错误的数据。

Laura Entis 的《Compute Is the New Cash》把话题带到 AI 经济学。在《AI & I》中,Stripe 数据与 AI 负责人 Emily Glassberg Sands 和 Dan Shipper 讨论了 agent 如何成为经济参与者,以及为什么欺诈已经不只是 checkout 阶段的问题,而是贯穿整个漏斗的问题。与此同时,GitHub 和 Anthropic 都在转向按用量计费,因为固定订阅模式正在被 agentic workloads 压垮。

Laura Entis 的《Who Isn’t Using GPT 5.5》则回顾 GPT-5.5 发布后一周 Every 团队的使用情况。Kieran 现在把时间平均分给 Codex 和 Claude Code;Natalia Quintero 做了一次 proposal head-to-head 测试,结果 Claude agent 赢了。文章还提到六位独角兽 CTO 转去 Anthropic 做 IC、Kieran 如何让 agent 夜里观看用户投诉视频并在一天内完成 24 个 pull requests,以及 Willie Williams 为什么说 AI 把写代码变成了老虎机。

Log on

Every 会举办关于 compound engineering 和 AI 写作的 camps 与 workshops,分享他们训练纽约时报、头部对冲基金等团队以及日常使用 AI 的经验。

上周的 Codex for Knowledge Work Camp 中,Dan 和 Austin 展示了如何用 OpenAI Codex 起草、研究、总结、并行运行任务,以及构建小工具来自动化知识工作中的重复环节。

Compound Engineering Camp 则由 Cora 总经理 Kieran Klaassen 和产品负责人 Trevin Chow 主讲,他们介绍了新变化,深入讲解 brainstorm 和 ideate 环节,并展示 compound engineering plugin 在产品工作流中的使用方式。

From Every Studio

Spiral 加入了版本历史。你现在可以查看一份草稿如何演变,并一键回滚到早期版本。它还发布了两个轻量 API endpoint,用于快速改写,并让 onboarding 流程更顺滑。

Cora 的 inbox 增加了星标视图、可输入的 snooze 时长、语音听写和更顺畅的 compose box,底层速度也有所提升。Kieran 正在寻找一小组 alpha testers,帮助测试完整 inbox。

Monologue 让 Apple Watch 上录制的音频可以同步到其他 Apple 设备。Mac app 在会议场景中也更好用了:会议结束时自动停止录音、允许更细地控制哪些 app 会触发录音,并新增 Webex 支持。

Alignment

这一节的标题是“速度的下游”。

美国食品药品监督管理局(FDA)本周宣布,两种癌症药物将把临床试验数据实时传输给监管机构:一种来自 AstraZeneca,另一种来自 Amgen。患者是否发烧?肝酶是否升高?肿瘤是否缩小?这些信号不再需要等临床医生在不同阶段之间收集、清洗、提交,FDA 将在它们发生时就看到。

FDA 的首席 AI 官估计,这可能把一种药物从实验室走到药房货架所需的时间缩短 20% 到 40%。

更快审批流程的下游影响,是更快知道一种药是否无效。制药公司研发预算中的很大一部分,实际上是在付钱让聪明人缓慢而昂贵地发现一个分子没有用;而当前系统往往把这种发现推迟到尽可能晚。有了实时数据,失败可能在第一年而不是第三年显现,患者也就有更宝贵的时间转向可能有效的治疗。

结构上,医学正在开始表现得更像软件。硅谷说“快速行动,打破东西”;医疗一直说相反的话,原因很明显:被打破的可能是人。作者 Ashwin Sharma 的判断是,AI 也许是第一个能让医学同时拥有两者的工具。

文章最后更正了一点:Monologue 可以在 Apple 设备之间同步音频,但不能接力一个正在进行中的录音。


核心启示:这期 newsletter 的主线是同一个变化:AI agent 不只是提高单点效率,而是在产品管理、成本控制、知识工作和医疗审批中,把“工作如何流动”本身重新改造成可观察、可分配、可加速的系统。

《Codex Goes to Work》的发芽报告

材料核心

这期 Every newsletter 汇总了 AI agent 进入真实工作系统后的几个侧面:产品管理开始 agent-native,AI 成本需要更精细的分层,Codex 正在被非工程师用于知识工作,医疗审批也因实时数据而更像软件流程。


发芽 01:Agent-native 产品管理不是“让 AI 写 PRD”

种子

Marcus Moretti 的案例很容易被误读成“一个人用 AI 做更多事”。但更深的变化是,产品管理正在从文档驱动变成记忆驱动。

/ce:strategy 负责把访谈转成策略文档,/ce:product-pulse 负责把分析简报保存成产品持续运行的记忆。这里的关键不是 AI 替你做了一份报告,而是产品工作有了一个可以被不断更新、检索、复用的记忆层。

Marcus 仍然自己写 roadmap 这一点反而很重要。它说明 agent-native 并不是把判断交给 AI,而是让 AI 承担信息整理、脉搏监测和上下文维护,把人的判断留在路线选择上。

Aha 瞬间

"Agent-native 产品管理的核心,不是 AI 替你决定方向,而是让方向判断终于建立在持续更新的产品记忆上。"


发芽 02:AI 成本的核心变量是注意力

种子

Mike Taylor 的“你才是最贵的模型”提供了一个很有用的反转:AI 成本不只是模型账单,而是人的注意力被如何消耗。

如果团队把所有任务都交给最强模型,看似省下了选择成本,实际上可能把人拖进更多审查、等待和纠错里。incremental determinism 的价值就在于,它要求你按任务的不确定性分层:有些任务需要 frontier model,有些任务只需要小模型,有些任务用脚本更好,有些任务根本不该调用模型。

这揭示了 agent 时代的新管理能力:不是“尽可能多用 AI”,而是知道什么时候不用最贵的 AI。

Aha 瞬间

"AI 成本纪律的第一步,是承认人的注意力也是计算资源,而且通常比 token 更贵。"


发芽 03:医学开始拥有软件式反馈回路

种子

FDA 实时接收癌症药物试验数据的例子,看似和 Codex、产品管理、知识工作不在一个频道,但它们共享同一个结构:反馈回路变短了。

过去,临床试验数据在阶段之间收集、清洗、提交,失败往往很晚才被发现。实时数据让系统更早知道药物是否无效,也让患者更早转向其他可能有效的治疗。

软件行业习惯快速反馈,因为错误可以回滚;医疗行业长期抗拒这种速度,因为错误会伤害人。AI 的意义在于,它可能让医疗在不牺牲谨慎的前提下,获得更快的观察能力。

Aha 瞬间

"当反馈回路足够短,速度不一定意味着鲁莽,也可能意味着更早发现错误。"


你的思考空间

  • 我的工作里,哪些环节缺的不是 AI 产出,而是一个持续更新的记忆层?
  • 我现在是否把太多低不确定性任务交给了昂贵模型?
  • 在我的领域里,哪些流程一旦拥有实时反馈,就会从“阶段制”变成“软件式迭代”?