Opus 4.7 把我们“钓”回来了

原文:https://every.to/context-window/opus-4-7-reels-us-back-in


风向变了

Opus 4.7 变强了吗?

如果你一直在关注 Dan Shipper 最近的帖子,就会知道 Every 团队中有相当一部分人已经成了 Codex 的拥趸。当 GPT-5.5 到来时,Codex 在编程和知识工作上的速度和稳定性大幅提升,以至于我们中许多人选择从 Claude Code 转投它的怀抱。

然而,最近我们发现,Opus 4.7 似乎比我们上个月初测时更敏锐了。它主动建议 Every 的工程师 Paridhi Agarwal 使用多个终端来并行处理她的工作。“我从没见过它这样考虑我的工作环境!”她说。

当增长主管、公认的 Codex 拥趸 Austin Tedesco 在周末启动 Opus 4.7 进行一个创意写作项目时,他对结果的出色程度感到惊讶。Austin 形容 Codex 像一个“AP 课程的事实核查员”,而相比之下,Opus 4.7 更像一位资深杂志编辑。Dan 也认同这个看法:“Codex 感觉快,但思考深度上有些单薄。”

本周二,Anthropic 为 Opus 4.7 发布了快速模式(fast mode),该模式以更高的 token 成本换来了 2.5 倍的速度提升。结合模型在规划、多任务处理和创意项目上的优势,快速模式现在成了 Cora 总经理 Kieran Klaassen 进行同步工作时的默认选择。

快速模式在2.5倍的速度下拥有与Opus 4.7“同等的深度” 快速模式在 2.5 倍的速度下拥有与 Opus 4.7“同等的深度”。(图片由 Kieran Klaassen 提供)

反对观点

网上关于 Opus 4.7 明显“开窍”的讨论褒贬不一。它感觉更聪明了,是因为工程套件(harness)改进了?还是修复了漏洞?又或者是我们自己用这个模型用得更顺手了?

这些猜想都有道理,但我们发现下面这个最有趣:Opus 4.7 意识到现在是学年末了。

去年在《The Ezra Klein Show》节目中,沃顿商学院教授兼 AI 研究员 Ethan Mollick 解释说,模型已被证明在 12 月的表现比 5 月差,而一个流行的理论是,模型内化了“寒假”这个概念。

说不定,Opus 4.7 只是清楚,如果它想通过 AP 英语考试,现在就该拼命了。

危险信号

当 Pull Request 成为窃取凭证的手段

本周早些时候,攻击者在 npm(Web 开发者使用的主要公共软件包注册中心)上发布了 42 个官方 TanStack 软件包(开发者广泛使用的 JavaScript 工具集)的恶意版本。安全研究人员称这次攻击为 “Mini Shai-Hulud,” ,并将其与去年秋天冲击 JavaScript 生态的更大规模的 Shai-Hulud npm 蠕虫攻击活动联系起来。

相同的攻击策略蔓延到了与 Mistral 和 UiPath 相关的软件包 相同的攻击策略蔓延到了与 Mistral 和 UiPath 相关的软件包。(图片由 Waqqas Mir 提供)

攻击者并没有窃取密码,而是提交了一个 Pull Request,诱骗 TanStack 自己的构建系统运行了他们的恶意代码。当 TanStack 发布新版本软件时,其中就包含了旨在窃取云密钥、GitHub 令牌和 npm 访问权限等凭证的恶意软件。研究人员还发现了一个“死亡开关”(dead-man's switch)【补充:一种在特定条件触发后自动执行预设操作的机制,此处指若攻击者失去对系统的控制或发现令牌被撤销,即触发破坏】。紧随 TanStack 事件之后,企业自动化公司 UiPath 和法国模型制造商 Mistral AI 等公司的 npm 软件包也遭到了相同手法的攻击。

这意味着什么:自动构建和发布代码的系统,而非代码本身,成了软件供应链中一个新的脆弱环节。自动发布软件的团队应该维护一个随时可以运行的审计程序(可以是一个 Codex 技能、Claude Code 命令,或其他自动化任务),以便在新漏洞曝光的第一时间,扫描每个仓库中是否存在受影响的软件包,并标记出受影响的部分、可能安全的部分,以及需要人工审查的部分。

关键数据

30%

这是写作工具 Spiral 的用户对 AI 写作痕迹的抱怨,在草稿写作流程中增加了一个“最终润色”(top edit)步骤后,下降的比例。

从四月中旬开始,每当 Spiral 为用户生成内容草稿时,文本都会被发送到一个快速模型——Gemini 2.5 Flash——进行最终润色。这个模型只有一个任务:移除草稿中所有的 AI 痕迹,包括破折号、“这不是 X,而是 Y”式的修辞重构,以及诸如“转变”(shift)、“塑造”(shape)和“深入探讨”(delve)等大语言模型偏爱的词汇。Marcus 会根据匿名的用户反馈,定期更新这份“AI 写作痕迹”清单。“这就像一个众包编辑功能,”他说。

换句话说,对抗“AI 味”最有效的方法,不是让人类重写,而是用一个专门识别并擦除 AI 痕迹的模型来收尾。

Every 内部观察

到底什么是智能体(Agent)?

一个在专用 Mac Mini 上 7x24 小时运行的 OpenClaw 算是智能体。一个 Codex 会话、一个自定义 GPT,或者一个文件夹,也都可以被视为智能体。“它可以是被管理的,可以在云端,也可以在你的电脑上,” Kieran 说,“它有数不清的方式成为一个智能体。”

这种混淆之所以出现,是因为“智能体”这个术语——任何能自主采取行动或执行任务的 AI 系统——涵盖的范围实在太广了。

当几乎所有东西都可以被称为智能体时,更好的问题就变成了:你希望你的智能体做什么? Dan 把这分为两类:与你协作的智能体,以及你向其委派任务的智能体。前者的作用是增强和拓展你的能力;后者的任务则是不出错、不碍事地执行指令。

智能体聚焦: 在 Anthropic 的 Managed Agents 控制台中,Spiral 的智能体拥有自己版本化的配置、记忆存储、自定义工具和凭证,并在 Anthropic 的云环境中运行。正是这个版本化的配置,包括系统提示词,主要决定了智能体的工作方式。

一套简洁、赋予其生命力的指令——这本身也是一个智能体。


核心启示:AI 工具之间的竞争正在从单纯比拼“谁更强”,转向在具体的协作或执行场景中“谁更合适”;同时,随着软件构建流程本身的自动化,我们对安全漏洞的认知也需要从代码本身,延伸到整个自动化交付系统。

Opus 4.7 Reels Us Back In 的发芽报告

材料核心

这期简报把四条看似分散的线索放在了一起:团队对模型体感的回摆、供应链攻击把矛头转向构建系统、产品用额外一道 AI 编辑来清除“AI 味”,以及“agent”这个词被越用越宽。它们共同指向一个更实际的问题:我们评估 AI,不该只问“它强不强”,而该问“它在什么工作环节里最可靠”。


发芽 01:从排行榜转向工作场景

文章里最有价值的,不是对 Opus 4.7 是否“真的变强”的定论,而是 Every 团队描述模型差异的方式:Codex 快、稳、适合编码和知识工作;Opus 4.7 在创意写作、规划、多任务和同步协作里更像资深编辑。这种判断不是来自抽象 benchmark,而是来自真实工作流中的摩擦感。

这意味着团队在选模型时,正在从“押注一个通用最强模型”,转向“按任务类型做分工”。当 Kieran 把 fast mode 设成同步工作的默认模型时,本质上是在把模型能力映射到工作节奏:什么任务要速度,什么任务要思考厚度,什么任务要并行规划。

Aha 瞬间

“模型竞争正在从单点能力比较,转向岗位分工比较。”


发芽 02:CI/CD 本身也成了产品表面

TanStack 这类事件提醒我们,自动化发布链路已经不只是工程内部设施,而是产品可信度的一部分。攻击者不需要直接改你的业务代码,只要能让你的构建和发布系统替他执行动作,最终交付给用户的结果照样会被污染。

对依赖自动发布的团队来说,这会把安全工作的重心往前推一层:不只审依赖版本,也要审“谁能触发哪些自动动作”“哪些令牌会在什么上下文暴露”“出现已知供应链事件时,能否快速扫描所有仓库并定位受影响路径”。文章里建议准备一套随时可运行的审计任务,这点很实用,因为真正需要的不是年终复盘,而是漏洞刚公开时的分钟级响应。

Aha 瞬间

“今天的软件供应链,代码库只是表层,流水线才是新的高价值接口。”


发芽 03:去 AI 味,正在变成独立工序

Spiral 的做法说明了一件很现实的事:越来越多产品不会期待‘一次生成就能直接交付’,而是把生成、修正、润色拆成多个模型工序。这里的 top edit 不是重写观点,而是专门清理某些用户已能稳定感知的不自然表达。

这背后反映的是一种新型产品方法:把“AI 痕迹”当成可持续收集、持续更新的缺陷类型来处理。Marcus 根据匿名反馈维护“AI tells”列表,等于把用户的审美摩擦直接接进写作流水线。它不像传统编辑那样追求统一文风,而更像质量控制环节,专门拦截会让读者出戏的信号。

Aha 瞬间

“未来的 AI 内容产品,竞争力不只来自会写,还来自会在最后一步把不该出现的痕迹删掉。”


你的思考空间

  • 如果模型选择越来越像团队里的岗位分工,那么你的工作流里哪些环节应该固定模型,哪些环节反而应该保留可替换性?

  • 当构建系统和自动发布链路本身成为攻击面时,你的团队是否已经把流水线权限、令牌暴露面和应急审计脚本视作一等公民?

  • 当“去 AI 味”变成独立工序后,内容团队真正积累的核心资产,是否会从提示词转移到那份不断更新的“坏味道清单”?