原文:Codex Goes to Work

Original article cover


知识库精选

代理原生的产品管理

Marcus Moretti 以一人之力运营着 Spiral。这背后的秘密在于两个复合工程技能:/ce:strategy 通过对话生成战略文档,/ce:product-pulse 则用创始人式的分析简报取代传统分析工具,并将其保存为产品的运行记忆。本质上,这是将产品经理的核心工作流——计划-交付-审查——转化为可复用的 AI 命令。

值得注意的是,Marcus 仍然亲自撰写路线图。这揭示了一个关键原则:即使在代理时代,某些需要深度权衡的决策仍需人类把关。他在配套文章中分享了完整工作流,以及判断 SaaS 产品能否在代理时代存活的双重测试。

阅读指南

你才是最昂贵的模型

大多数团队将整个工作流都交给前沿模型处理,而更便宜、更快的替代方案其实完全够用。真正的成本不是 token——而是你的注意力。

Mike Taylor 提出了“增量确定性”框架:一个四层级系统,用于决定哪些任务值得用 Opus 处理,哪些可以交给 Haiku、脚本,或者根本不需要模型。这意味着,AI 成本优化的核心不是砍预算,而是建立任务路由的决策树——在正确的层级使用正确的工具。

当 AI 账单开始飙升时,你需要知道该拉哪根杠杆。

阅读文章

一个应用统治所有知识工作

Austin Tedesco 现在通过 Codex 处理 80% 的日常工作流——而就在几个月前,他还称这个工具对非工程师来说是“垃圾”。态度的 180 度转变背后,是工具能力的指数级跃迁。

Austin 的关键实践:在目标应用中审查每一个代理输出。换句话说,不要盲目信任 AI 生成的结果,而要在真实使用场景中验证。文章还分享了一个提示词技巧:让代理设计自己的自动化流程,以及如何使用 Every 的复合知识插件在计划执行前捕获错误数据。

【补充】Codex 是 OpenAI 开发的代码生成模型,现已集成到多种开发工具中。

阅读文章

算力即现金

在播客 AI & I 中,Stripe 数据与 AI 负责人 Emily Glassberg SandsDan Shipper 探讨了代理如何成为经济参与者——以及为什么欺诈现在是全漏斗问题,而不仅仅是结账环节的问题。

这揭示了一个深层转变:当 AI 代理可以自主完成交易时,传统的“在支付页面拦截欺诈”的安全模型已经过时。你需要在整个用户旅程中部署防护。

GitHub 和 Anthropic 都在转向基于使用量的定价模式,因为固定订阅在代理工作负载下已经失效。Dan 和 Kieran Klaassen 对“是否应该与代理对话”给出了截然不同的观点;Naveen Naidu 分享了将产品上线后的客户反馈转化为产品队列的三步工作流。

🎧 收听:Spotify | Apple Podcasts
🖥 观看:X | YouTube

谁还没用上 GPT-5.5?

GPT-5.5 发布一周后,Every 团队的使用情况分化明显:Kieran 现在在 Codex 和 Claude Code 之间平分时间,但 Natalia Quintero 进行了一场提案对决测试——她的 Claude 代理赢了。

这意味着,模型选择正在从“哪个最强”转向“哪个最适合我的具体任务”。文章还提到一个有趣现象:六位独角兽公司的 CTO 辞职加入 Anthropic 成为个人贡献者(IC)。本质上,这反映了 AI 基础设施层的吸引力已经超过了应用层的管理职位。

Kieran 通过让代理整夜观看用户投诉视频,单日完成了 24 个拉取请求。Willie Williams 则警告:AI 已经把编码变成了老虎机游戏——你需要知道何时离开。

阅读文章


训练营回顾

Every 举办关于复合工程AI 写作的训练营和工作坊,分享我们为纽约时报顶级对冲基金等团队提供培训时积累的经验。

上周训练营

  • Codex 知识工作训练营:Dan 和 Austin 演示了如何使用 OpenAI 的 Codex 进行起草、研究、总结、并行任务处理,以及构建小工具来自动化日常知识工作。观看录像

往期录像

  • 复合工程训练营Cora 总经理 Kieran Klaassen 和产品负责人 Trevin Chow 深入讲解了头脑风暴和构思步骤,并分享了在以产品为中心的工作流中使用复合工程插件的案例。观看录像

Every Studio 产品更新

Spiral 支持浏览和恢复旧版草稿

Spiral 新增了版本历史功能——你现在可以看到草稿如何演变,并一键回滚到早期版本。它还发布了两个轻量级 API 端点用于快速重写,并显著优化了新手引导流程。

Cora 收件箱新增星标、语音听写和更流畅的撰写体验

Cora 的收件箱进行了一轮可用性升级:重要线程的星标视图、可输入的稍后提醒时长、语音听写,以及更流畅的撰写体验。应用后台速度也得到提升。Kieran 正在寻找一小组 Alpha 测试者来压力测试完整收件箱功能——如果感兴趣,请联系 kieran@every.to

Monologue 支持从 Apple Watch 到 iPhone 的录音同步

Monologue 上用 Apple Watch 录制的音频会同步到你的其他 Apple 设备。Mac 应用在会议场景也得到改进:会议结束时自动停止录音、更精细地控制哪些应用触发录音,以及 Webex 加入 Zoom 和 Teams 成为支持的平台。


对齐:速度的下游效应

速度的下游效应。 美国食品药品监督管理局(FDA)本周宣布,两款癌症药物——一款来自阿斯利康,一款来自安进——将实时向该机构传输试验数据。患者是否发烧?肝酶是否升高?肿瘤是否缩小?FDA 不再等待临床医生在各阶段之间收集、清理和提交这些信号,而是在它们发生时就能看到。该机构的首席 AI 官估计,这可以将药物从实验室到药房货架的时间缩短 20% 到 40%。

更快审批流程的下游效应,是更快发现药物无效。 制药公司研发预算的大部分,都花在让聪明人缓慢而昂贵地发现某个分子是个废物上——而现行系统恰恰优化为尽可能晚地发现这一点。有了实时数据,失败可能在第一年就显现,而不是第三年,这意味着为患者争取到宝贵时间,让他们转向可能有效的治疗方案。

从结构上看,医疗正在开始表现得像软件。 硅谷说“快速行动,打破常规”,而医疗保健一直持相反立场,原因显而易见:被打破的是人。我开始相信,AI 可能是第一个让医疗两全其美的工具。——Ashwin Sharma

【补充】传统药物试验采用分阶段数据提交,往往在投入数年和数亿美元后才发现药物无效,实时数据流从根本上改变了这一模式。


更正:本文已更新,说明 Monologue 可以在 Apple 设备间同步音频,但无法移交正在进行中的录音。

本周就到这里!请在 X 上关注 Every @every 以及 LinkedIn

我们为像你这样的读者构建 AI 工具。用 Spiral 精彩写作。用 Sparkle 自动整理文件。用 Cora 解放邮箱。用 Monologue 轻松听写。用 Proof 与 AI 代理协作处理文档。

赞助合作请联系 sponsorships@every.to


核心启示:AI 代理正在将知识工作从“使用工具”转向“编排工具”——关键不在于模型有多强,而在于你是否建立了正确的任务路由和验证机制。

Original article image
Original article image
  1. 复合技能的涌现

🌱 种子

Marcus用两个AI命令运营整个公司,揭示了"复合工程"的本质——不是让AI做更多事,而是把人的核心工作流编码成可复用命令。

1962年,道格拉斯·恩格尔巴特提出"智力增强"理论:工具不应替代人类思考,而应放大人类能力。/ce:strategy和/ce:product-pulse正是这种放大器——它们不是自动化产品管理,而是将产品经理的思维模式固化为可随时调用的认知工具。

✨ Aha 瞬间

"复合工程的终极形态不是AI替你工作,而是你把自己的工作方式教给AI。"

  1. 增量确定性框架

🌱 种子

Mike Taylor的"你才是最昂贵的模型"击中了AI成本优化的盲区——真正的瓶颈不是token费用,而是人类注意力的稀缺性。

认知科学家赫伯特·西蒙早在1971年就指出:"信息消费注意力,信息的丰富意味着注意力的贫乏。"当团队把所有任务都扔给Opus时,他们消耗的不是算力预算,而是审查输出的认知带宽。四层级任务路由(Opus/Haiku/脚本/不需要)本质上是注意力的资源配置决策树。

✨ Aha 瞬间

"AI成本优化的终极问题不是'这个任务值多少钱',而是'这个任务值得我看多久'。"

  1. 实时数据流的下游效应

🌱 种子

FDA允许癌症药物实时传输试验数据,这不仅是审批流程的加速,更是失败模式的重构——从"昂贵的晚期发现"变成"廉价的早期淘汰"。

硅谷的"快速失败"哲学在医疗领域一直是禁忌,因为代价是人命。但AI+实时数据创造了第三条路:保持谨慎的同时加速迭代。这和软件开发的持续集成(CI/CD)同构——不是降低标准,而是把检验点前置。

✨ Aha 瞬间

"AI让医疗可以像软件一样快速迭代,但不是通过降低安全标准,而是通过更早发现失败。"


💡 这篇笔记已经发芽,继续记录,让更多想法生长。