我们如今的工作方式

原文:https://every.to/context-window/how-we-work-now

原文配图

周日好!这一周被两份指南框定了首尾:一份是长达九千字的 Codex 高级用户指南——它把 丹·希珀(Dan Shipper) 在《自动化之后》一文中阐述的理念,落地成 Every 团队最近一直在实践的工作方式。另一份是 基兰·克拉森(Kieran Klaassen) 更新的复合式工程指南,这是 Every 的 AI 原生开发流程,已从四步扩展为七步。我们正在为这两个专题举办训练营——复合式工程训练营定在 6 月 5 日,Codex 训练营定在 6 月 12 日。

周中,Anthropic 发布了最新模型 Opus 4.8。用丹和 凯蒂·帕罗特(Katie Parrott) 的话说,“Anthropic 王者归来”。这一模型在我们编程基准和写作测试中都排在首位,是该公司迄今为止最完整的模型,尽管它周围的应用生态还有些追赶的余地。数月来,Anthropic 和 OpenAI 一直在 Every 的基准排行榜上你来我往。本周,Anthropic 胜出。—— 凯特·李(Kate Lee)


知识库

🔏 《知识工作的 Codex 用法》 ,作者 凯蒂·帕罗特 / 指南: 凯蒂这份九千字的指南,将 Codex 转变为一个知识工作的操作系统,包含五个使用层级(从一次性任务到能够自我叠加的系统),13 个工作流模板,以及关于上下文文件、规则和复盘检查清单的完整设定,让智能体在一整个工作日内都可靠可用。一篇配套文章为初接触 Codex 的读者提供了框架性导读。推荐阅读其中的七日入门计划和更深层的模板。

《复合式工程》 ,作者 基兰·克拉森 和 Trevin Chow / 指南: 复合式工程循环已从四步扩展到七步。构思与规划前置,打磨后置——因为现在 AI 处理的是循环中段。更新后的插件提供了 43 个子智能体和 38 个斜杠命令技能。在配套文章中,基兰 解释了一种全新的“三明治”范式:AI 在中间,人类是两端的“面包”。推荐阅读了解新循环以及每个步骤对人的要求。

《氛围感检验:Opus 4.8——Anthropic 本该直接四舍五入叫 5》 ,作者 丹·希珀凯蒂·帕罗特 / 氛围感检验: Opus 4.8 是一年来 Anthropic 发布的模型中, 和凯蒂在编程、写作和日常工作中都会首选的版本。在 Every 的高级工程师基准测试中,它得了 63 分,GPT-5.5 是 62 分,Opus 4.7 是 33.5 分;写作测试中得了 79.6 分——这是所有模型中的最高分,且 AI 痕迹比任何非 Claude 模型都少。推荐阅读完整的基准分解,以及为什么说模型本身已经跑在了它周围应用的前面。

🎧 🖥 《我们用 AI 自动化了一切,人员规模却增长了两倍》 ,作者 丹·希珀 / AI & I 播客: 在《自动化之后》中,丹提出,AI 进步为人类创造了更多而非更少的工作。模型越好,可以交给它们的框架就越多。Every 首席运营官 布兰登·盖尔(Brandon Gell) 与丹坐下来,逐一探讨了每个前提。这是该论点的口头版本,可观看或收听。🎧 🖥 可在 SpotifyApple Podcasts 收听,在 YouTube 观看,或关注 X 上的讨论。

《〈自动化之后〉的后续》 ,作者 凯蒂·帕罗特 / 上下文窗口: 凯蒂将教皇利奥十四世的通谕《Magnifica Humanitas》——梵蒂冈首份关于 AI 的重要通谕——读作对丹的论断的集体性呼应。推荐阅读了解二者在 AI 与劳动问题上的一致与分歧。

加入实践

亲手体验 Every 如何使用 AI。以下是我们团队举办的直播训练营、工作坊和聚会,展示支撑我们工作的实际流程。

即将举办的 复合式工程训练营:6 月 5 日,Cora 总经理 基兰·克拉森Trevin Chow 主持一小时实战讲解,展示 Every 用来交付产品的 AI 原生开发流程——复合式工程。了解更多并注册

Codex 训练营:我们的高级用户指南:6 月 12 日,丹和 Every 团队主持两小时直播,走完 Codex 高级用户指南全流程——包括设置、工作流以及基于 Codex 的原生应用开发。了解更多并注册

近期活动

来自 Every 工作室

Proof 让你的名字留在共享文档里:在 Proof 中,人类和 AI 智能体一起处理文档。本周有 8 个新的 PR,全部聚焦于协作编辑。共享文档现在归第一个打开它的人类所有(而不再是系统),你的编辑痕迹也会在整个流程中保留你的名字——不再有匿名的修订记录。

对齐

那种对的不安感几个月前我写过 Doctronic,这家公司在犹他州进行试点,让 AI 处理处方续签。上周五,该州 AI 政策办公室公布了头五个月的结果。(AI 收集患者信息,要么推荐续方并由人类医生签字,要么拒绝并将病例升级给医生处理。)

在 72% 的案例中,AI 建议了续方,审核医生在十次中有九次表示同意。在 9% 医生想要更多信息的案例中,会引入第二位医生,而后者通常判定这些信息并非必需。经过两层审核后,97% 的建议得以成立。该办公室估计,人类在这类判断中出错的几率在 5% 到 12% 之间。

但最让人安心的数据是:在 AI 升级给医生的 28% 的案例中,医生有 69% 的情况支持了 AI 的决定,而在其余案例中则认为 AI 过于谨慎。对于一个试点项目而言,这种过度谨慎是极好的——你希望系统被调校到能抓住每一个真正高风险的病例,哪怕它会阻断一些完全没问题的病例。该担心的,是那种轻松放行处方、自信过头的系统。

很多年前我轮转实习时,老师告诉我,最危险的医生是过度自信的年轻医生,而最安全的往往是那些会把一切情况都上报的过度焦虑者,无论该不该报。他们这么做,恰恰是因为还在摸索那根分界线在哪里,而过度谨慎就是他们找到那条线的方式。Doctronic 的 AI 表现得就像一个紧张的年轻医生,而在当前阶段,这无疑是最令人鼓舞的表现。—— 阿什温·沙玛(Ashwin Sharma)


核心启示:从复合式工程到医疗 AI 试点,越来越多的证据表明,可靠的系统并非那种总是自行决断的系统,而是设计之初就懂得何时将决定权推回给人类——过度谨慎在当下恰恰是正确的安全姿态。

How We Work Now 的发芽报告

材料核心

Every 团队揭示了 AI 正在将人类工作从“执行”推向“定义”与“审查”两端——工具越强,我们能交给它的抽象层级越高,我们自己的职责也从单次操作转变为搭建由 AI 完成的复合系统。同时,AI 在安全敏感领域的过度谨慎,恰恰是它可靠性的来源。


发芽 01:更好的模型,更多的框架

种子

我们通常以为更强 AI 会直接替代更多人类工作,但 Every 团队的经历指出:每一次模型能力跃升,带来的不是“少给我们点事做”,而是“把原本不敢让它做的事交给它”,结果就是人类不仅没少做,反而要搭建更复杂的指令、检查链和系统。

故事

Codex 的使用被 Katie Parrott 分出了五个层次,从“一次性任务”到“复合系统”。每一个层次都要求人类提供更密集的上下文、更细致的规则和更关键的最终决策。复合工程原本只有四步,现在却扩展为七步,把“构思”和“打磨”明确放回人类手中,而中间的生成阶段交给 AI。Kieran Klaassen 把这种新结构叫作“三明治”——人类是两片面包,AI 是中间的肉。这种安排的前提恰恰是 AI 已经强大到足以消化整个中间层,人类便不得不承担全新的任务:设计整个循环、挑选胶水般的子代理、以及在终点处做最后的质量判断。

Aha 瞬间

“自动化没有让劳动消失,它只是把劳动推到了更高的抽象层。”


发芽 02:一篇由 AI 自动续方的处方,最该具备的素质是“怯场”

种子

人们对医疗 AI 的恐惧常集中在它过于自信地漏掉风险,但 Doctronic 在犹他州的试点给出了一个反直觉的安心理由:一个好的早期 AI 系统应该是过度谨慎的。

故事

在 72% 的案例中,AI 推荐续方,被审查医生以九成比例同意;但真正让人放心的是另外 28%——那些 AI 选择升级给人类医生的案例。医生不仅赞同了其中 69% 的升级决定,还认为在其余情况下 AI 是过度谨慎的——它把一些完全可以自动通过的案例也拦了下来。Ashwin Sharma 将这种行为类比做医学实习生的经验:最危险的年轻医生是过度自信的,最安全的往往是那个凡事都要问一下的忧虑者。Doctronic 的 AI 表现出的正是这种“新手式的不安”,而在它还没有真正学会那条安全边界时,这种不安恰恰是最健康的状态。

Aha 瞬间

“我们最想要的不是一台自信签发处方的 AI,而是一个会不断举手说‘这个我拿不准,你看一下’的实习生。”


发芽 03:当 AI 占领了中间地带,人类重新定义工作边界

种子

复合工程的“三明治”模型不仅是效率工具,而是在重新界定工作身份的归属——原来被看作工作核心的“执行”环节落入了 AI 手中,剩下的“开头与结尾”成了人类的新领地。

故事

Kieran Klaassen 将原本完整的开发循环分解为七步,其中“构思”、“计划”和“打磨”明确只属于人类,而中间的生成部分完全交给 AI。这一调整出现在 Anthropic Opus 4.8 以最高写作测试分和仅比 GPT-5.5 差一分的编码基准登顶的同一周。模型越完整,人类就越不必留在中间环节,但同时,也就越需要对入口的设想和出口的质量付出精力。人类工作的实质从“我会做这个”转向“我知道该做什么,以及什么才算做好了”。这同样适用于 Codex 的使用——用户不断根据输出质量去优化自己的规则和维护自己的上下文文件,这种“喂养系统”的行动本身变成了一种新的知识工作。

Aha 瞬间

“当 AI 消化了操作层面,留在人类手中的不是清闲,而是品味、判断和系统设计的责任。”


你的思考空间

  • 你现阶段的工作里,是更接近“亲自执行”还是已经在“定义框架和检查结果”?今天做的哪件事可以被推高到一个更抽象的层级?
  • 如果你正在使用的 AI 工具突然变得过度谨慎——经常把简单问题升级给你——你会觉得烦还是更信任它?
  • 在你的行业中,哪些“中间环节”被消化之后,对人类的要求反而会从“技术熟练”转向“品味和方向感”?