我们如今的工作方式

原文：https://every.to/context-window/how-we-work-now

原文配图

周日好！这一周被两份指南框定了首尾：一份是长达九千字的 Codex 高级用户指南——它把 丹·希珀（Dan Shipper） 在《自动化之后》一文中阐述的理念，落地成 Every 团队最近一直在实践的工作方式。另一份是 基兰·克拉森（Kieran Klaassen） 更新的复合式工程指南，这是 Every 的 AI 原生开发流程，已从四步扩展为七步。我们正在为这两个专题举办训练营——复合式工程训练营定在 6 月 5 日，Codex 训练营定在 6 月 12 日。

周中，Anthropic 发布了最新模型 Opus 4.8。用丹和 凯蒂·帕罗特（Katie Parrott） 的话说，“Anthropic 王者归来”。这一模型在我们编程基准和写作测试中都排在首位，是该公司迄今为止最完整的模型，尽管它周围的应用生态还有些追赶的余地。数月来，Anthropic 和 OpenAI 一直在 Every 的基准排行榜上你来我往。本周，Anthropic 胜出。—— 凯特·李（Kate Lee）

知识库

🔏 《知识工作的 Codex 用法》 ，作者凯蒂·帕罗特 / 指南：凯蒂这份九千字的指南，将 Codex 转变为一个知识工作的操作系统，包含五个使用层级（从一次性任务到能够自我叠加的系统），13 个工作流模板，以及关于上下文文件、规则和复盘检查清单的完整设定，让智能体在一整个工作日内都可靠可用。一篇配套文章为初接触 Codex 的读者提供了框架性导读。推荐阅读其中的七日入门计划和更深层的模板。

《复合式工程》 ，作者基兰·克拉森和 Trevin Chow / 指南：复合式工程循环已从四步扩展到七步。构思与规划前置，打磨后置——因为现在 AI 处理的是循环中段。更新后的插件提供了 43 个子智能体和 38 个斜杠命令技能。在配套文章中，基兰解释了一种全新的“三明治”范式：AI 在中间，人类是两端的“面包”。推荐阅读了解新循环以及每个步骤对人的要求。

《氛围感检验：Opus 4.8——Anthropic 本该直接四舍五入叫 5》 ，作者丹·希珀和凯蒂·帕罗特 / 氛围感检验： Opus 4.8 是一年来 Anthropic 发布的模型中，丹和凯蒂在编程、写作和日常工作中都会首选的版本。在 Every 的高级工程师基准测试中，它得了 63 分，GPT-5.5 是 62 分，Opus 4.7 是 33.5 分；写作测试中得了 79.6 分——这是所有模型中的最高分，且 AI 痕迹比任何非 Claude 模型都少。推荐阅读完整的基准分解，以及为什么说模型本身已经跑在了它周围应用的前面。

🎧 🖥 《我们用 AI 自动化了一切，人员规模却增长了两倍》，作者丹·希珀 / AI & I 播客：在《自动化之后》中，丹提出，AI 进步为人类创造了更多而非更少的工作。模型越好，可以交给它们的框架就越多。Every 首席运营官 布兰登·盖尔（Brandon Gell） 与丹坐下来，逐一探讨了每个前提。这是该论点的口头版本，可观看或收听。🎧 🖥 可在 Spotify 或 Apple Podcasts 收听，在 YouTube 观看，或关注 X 上的讨论。

《〈自动化之后〉的后续》 ，作者凯蒂·帕罗特 / 上下文窗口：凯蒂将教皇利奥十四世的通谕《Magnifica Humanitas》——梵蒂冈首份关于 AI 的重要通谕——读作对丹的论断的集体性呼应。推荐阅读了解二者在 AI 与劳动问题上的一致与分歧。

加入实践

亲手体验 Every 如何使用 AI。以下是我们团队举办的直播训练营、工作坊和聚会，展示支撑我们工作的实际流程。

即将举办的复合式工程训练营：6 月 5 日，Cora 总经理 基兰·克拉森 与 Trevin Chow 主持一小时实战讲解，展示 Every 用来交付产品的 AI 原生开发流程——复合式工程。了解更多并注册。

Codex 训练营：我们的高级用户指南：6 月 12 日，丹和 Every 团队主持两小时直播，走完 Codex 高级用户指南全流程——包括设置、工作流以及基于 Codex 的原生应用开发。了解更多并注册。

近期活动

高管 AI 专场：6 月 2 日，咨询负责人 娜塔莉亚·金特罗（Natalia Quintero） 主持一场线上研讨会，介绍 Every 咨询为领导团队推出的 AI 导入新服务——基于我们与高管客户合作数月所形成的操作手册。了解更多并注册。（纽约线下）
Every 🤝 IRL：6 月 3 日纽约科技周期间，在布鲁克林的 Every 褐石公寓，邀订阅者参加专属聚会，用饮品和对话庆祝 Every 社区。了解更多并回复。

来自 Every 工作室

Proof 让你的名字留在共享文档里：在 Proof 中，人类和 AI 智能体一起处理文档。本周有 8 个新的 PR，全部聚焦于协作编辑。共享文档现在归第一个打开它的人类所有（而不再是系统），你的编辑痕迹也会在整个流程中保留你的名字——不再有匿名的修订记录。

对齐

那种对的不安感。几个月前我写过 Doctronic，这家公司在犹他州进行试点，让 AI 处理处方续签。上周五，该州 AI 政策办公室公布了头五个月的结果。（AI 收集患者信息，要么推荐续方并由人类医生签字，要么拒绝并将病例升级给医生处理。）

在 72% 的案例中，AI 建议了续方，审核医生在十次中有九次表示同意。在 9% 医生想要更多信息的案例中，会引入第二位医生，而后者通常判定这些信息并非必需。经过两层审核后，97% 的建议得以成立。该办公室估计，人类在这类判断中出错的几率在 5% 到 12% 之间。

但最让人安心的数据是：在 AI 升级给医生的 28% 的案例中，医生有 69% 的情况支持了 AI 的决定，而在其余案例中则认为 AI 过于谨慎。对于一个试点项目而言，这种过度谨慎是极好的——你希望系统被调校到能抓住每一个真正高风险的病例，哪怕它会阻断一些完全没问题的病例。该担心的，是那种轻松放行处方、自信过头的系统。

很多年前我轮转实习时，老师告诉我，最危险的医生是过度自信的年轻医生，而最安全的往往是那些会把一切情况都上报的过度焦虑者，无论该不该报。他们这么做，恰恰是因为还在摸索那根分界线在哪里，而过度谨慎就是他们找到那条线的方式。Doctronic 的 AI 表现得就像一个紧张的年轻医生，而在当前阶段，这无疑是最令人鼓舞的表现。—— 阿什温·沙玛（Ashwin Sharma）

核心启示：从复合式工程到医疗 AI 试点，越来越多的证据表明，可靠的系统并非那种总是自行决断的系统，而是设计之初就懂得何时将决定权推回给人类——过度谨慎在当下恰恰是正确的安全姿态。

How We Work Now 的发芽报告

材料核心

Every 团队揭示了 AI 正在将人类工作从“执行”推向“定义”与“审查”两端——工具越强，我们能交给它的抽象层级越高，我们自己的职责也从单次操作转变为搭建由 AI 完成的复合系统。同时，AI 在安全敏感领域的过度谨慎，恰恰是它可靠性的来源。

发芽 01：更好的模型，更多的框架

种子

我们通常以为更强 AI 会直接替代更多人类工作，但 Every 团队的经历指出：每一次模型能力跃升，带来的不是“少给我们点事做”，而是“把原本不敢让它做的事交给它”，结果就是人类不仅没少做，反而要搭建更复杂的指令、检查链和系统。

故事

Codex 的使用被 Katie Parrott 分出了五个层次，从“一次性任务”到“复合系统”。每一个层次都要求人类提供更密集的上下文、更细致的规则和更关键的最终决策。复合工程原本只有四步，现在却扩展为七步，把“构思”和“打磨”明确放回人类手中，而中间的生成阶段交给 AI。Kieran Klaassen 把这种新结构叫作“三明治”——人类是两片面包，AI 是中间的肉。这种安排的前提恰恰是 AI 已经强大到足以消化整个中间层，人类便不得不承担全新的任务：设计整个循环、挑选胶水般的子代理、以及在终点处做最后的质量判断。

Aha 瞬间

“自动化没有让劳动消失，它只是把劳动推到了更高的抽象层。”

发芽 02：一篇由 AI 自动续方的处方，最该具备的素质是“怯场”

种子

人们对医疗 AI 的恐惧常集中在它过于自信地漏掉风险，但 Doctronic 在犹他州的试点给出了一个反直觉的安心理由：一个好的早期 AI 系统应该是过度谨慎的。

故事

在 72% 的案例中，AI 推荐续方，被审查医生以九成比例同意；但真正让人放心的是另外 28%——那些 AI 选择升级给人类医生的案例。医生不仅赞同了其中 69% 的升级决定，还认为在其余情况下 AI 是过度谨慎的——它把一些完全可以自动通过的案例也拦了下来。Ashwin Sharma 将这种行为类比做医学实习生的经验：最危险的年轻医生是过度自信的，最安全的往往是那个凡事都要问一下的忧虑者。Doctronic 的 AI 表现出的正是这种“新手式的不安”，而在它还没有真正学会那条安全边界时，这种不安恰恰是最健康的状态。

Aha 瞬间

“我们最想要的不是一台自信签发处方的 AI，而是一个会不断举手说‘这个我拿不准，你看一下’的实习生。”

发芽 03：当 AI 占领了中间地带，人类重新定义工作边界

种子

复合工程的“三明治”模型不仅是效率工具，而是在重新界定工作身份的归属——原来被看作工作核心的“执行”环节落入了 AI 手中，剩下的“开头与结尾”成了人类的新领地。

故事

Kieran Klaassen 将原本完整的开发循环分解为七步，其中“构思”、“计划”和“打磨”明确只属于人类，而中间的生成部分完全交给 AI。这一调整出现在 Anthropic Opus 4.8 以最高写作测试分和仅比 GPT-5.5 差一分的编码基准登顶的同一周。模型越完整，人类就越不必留在中间环节，但同时，也就越需要对入口的设想和出口的质量付出精力。人类工作的实质从“我会做这个”转向“我知道该做什么，以及什么才算做好了”。这同样适用于 Codex 的使用——用户不断根据输出质量去优化自己的规则和维护自己的上下文文件，这种“喂养系统”的行动本身变成了一种新的知识工作。

Aha 瞬间

“当 AI 消化了操作层面，留在人类手中的不是清闲，而是品味、判断和系统设计的责任。”

你的思考空间

你现阶段的工作里，是更接近“亲自执行”还是已经在“定义框架和检查结果”？今天做的哪件事可以被推高到一个更抽象的层级？
如果你正在使用的 AI 工具突然变得过度谨慎——经常把简单问题升级给你——你会觉得烦还是更信任它？
在你的行业中，哪些“中间环节”被消化之后，对人类的要求反而会从“技术熟练”转向“品味和方向感”？