人人有代理,却几乎无人能触及模型

原文:https://every.to/context-window/everyone-gets-an-agent-almost-no-one-gets-the-model


大家好,周日愉快!OpenAI 在上周五发布了 GPT-5.6 Sol——但根据美国政府指令,在华盛顿方面厘清如何发布具备高级能力的前沿模型之前,其访问权限仅限于约 20 家预先批准的公司。

Dan Shipper 指出,这种封锁伤害的恰恰是最需要这些工具来跟上时代的人:“在一个先进模型被封锁、仅供 AI 巨头和少数精选公司的员工使用的世界里,那些雄心勃勃的学生、独立开发者和职场人士,将被剥夺学习、创造和充分竞争所需的工具。”

这种配给制度很快也会落到我们其他人头上。Mike Taylor 认为,Token 访问权即将像资本一样被分配——谁能证明自己能带来最大回报,谁就能拿到最大预算。而随着模型能力越来越强,这种动态只会愈演愈烈。

由此出发,我们来谈谈当人们真的将这些工具拿到手之后会发生什么:为工程师打造的智能体(agent)正在逼近所有人的办公桌——Codex 的周活跃用户已突破 500 万,Anthropic 的 Claude Tag 也已入驻 Slack。我们的 Compound engineering(复合工程) 插件现已能让一个编程智能体在无人看管的情况下连续运行数小时,长到足以独立完成一个功能模块的开发、编写测试用例,并自主发起一个 Pull Request。

Nityesh Agarwal 论证说,Claude Code 或许就是你唯一需要的智能体构建工具;Katie Parrott 将自己的职业复盘交给了 Codex;而 Dan Shipper 则向 Surge AI 的 Edwin Chen 提问:当机器无所不能时,留给人类的还有什么?——Kate Lee

知识库

“Claude Code 就是你已有的 OpenClaw 替代品”,作者 Nityesh Agarwal / Source Code:资深应用 AI 工程师 Nityesh Agarwal 认为,任何想用 OpenClaw 构建 AI 智能体的人,手中早已有一个更强大的选项:Claude Code。Anthropic 早在一年多前就发布了它。它被定位为一款编程工具,因此作为通用智能体框架的身份在很大程度上被忽视了。他剖析了这种定位所掩盖的东西,并展示了这个工具如何变成了 Claudie——Every 在 Slack 中 24 小时在线的 AI 员工。

🔏 “用于知识工作的 Codex”,作者 Katie Parrott / Guides:我们这份关于将 Codex 用于知识工作(不仅仅是编程,还包括邮件、写作、研究和规划)的指南,在初版发布仅一个多月后,已更新至第二版。我们重写了它,只为跟上 Codex 极快的迭代速度:它描绘了项目、线程、目标(Goals)、插件和站点(Sites)如何协同工作;解释了 Codex 如何触达你的文件和应用;并新增了一份 30 天上手计划。其中一个贴士是:把整份指南交给 Codex,告诉它你的角色,让它为你挑选第一个工作流。

“Codex 为一切、为所有人而来”,作者 Laura Entis 和 Katie Parrott / Context Window:OpenAI 正大力推动 Codex 超越编程领域,推出了站点(Sites)功能以及面向分析师和产品经理等特定角色的插件。OpenAI 押注,它将变成每个人完成智能体工作的中心。本期内容还包括:一个利用 Codex 制作 YouTube 缩略图的技巧、Anthropic 新推出的 Claude Tag Slack 智能体,以及正在悄然渗透到设计领域的 AI 痕迹。

“Token 紧缩”,作者 Laura Entis / Context Window:以原始 Token 消耗量来衡量 AI 采用率的时代似乎正在终结。技术咨询负责人 Mike Taylor 认为,算力将像一个交易投资组合一样被分配——最大预算会流向那些能证明自己能带来最大回报的少数人,而前沿模型的访问权也将据此配给。本期还有:增长负责人 Austin Tedesco 基于 SpiralMonologue 和一个 OpenClaw 想法收件箱所构建的写作工作流。

“AI 能学会良好的判断力吗?”,作者 Katie Parrott / Context Window:本周,我们进行了三个教机器学会判断的实验:Dan Shipper 正在用主编 Kate Lee 数以万计的过往编辑记录对一位 AI 文案编辑进行微调,以捕捉她的判断。运营负责人 Arielle Shipper 将一段两分钟的屏幕录制变成了可复用的智能体指令,这正是 OpenAI 刚为 Codex 推出的“录制与回放”(Record & Replay)功能。而 Austin 则指导 Codex 去完成那些他自己无法亲手操作的复杂任务。

🎧 🖥 “当 AI 无所不能时,作为人类意味着什么”,作者 Dan Shipper / AI & I:Surge AI 创始人 Edwin Chen(他的评估和数据公司在没有任何风投资金的情况下,年收入已逼近 10 亿美元)与 Dan 一同探讨:当 AI 通过了所有基准测试后,驱动人类的动机是什么。Chen 的观点是,规模定律表明 AI 会追求我们交给它的任何目标,但这个目标本身仍然必须来自人——模型本身没有自己的驱动力。🎧 🖥 在 SpotifyApple Podcasts 上收听,在 YouTube 上观看,或在 X 上加入讨论。

“我让 AI 审计我的职业生涯”,作者 Katie Parrott / Working Overtime:季中时分,Katie Parrott 不确定自己是否在按 OKR 目标推进。于是,她让一个 Codex 构建的“职业教练”去审视她自己的工作记录,并在大约 10 分钟内得到了一份客观的解读:她达成了自己的目标。这篇文章详细说明了整个设置,并提出了一个更深层的观点:一个智能体可以到 Slack、Google Drive 和你的桌面上搜寻证据,而不是依赖你回忆起来并口头提及的那些信息。

上手实操

亲手体验 Every 如何使用 AI。这些是 实时训练营、工作坊和见面会,Every 团队成员会在其中讲授支撑我们工作的具体工作流。

上周的训练营
  • Codex 高级用户训练营:一场两小时的实操课程,教你如何将 Codex 作为写作、研究、增长、客户支持和工程设计的日常驾驶舱操作系统来使用。观看回放
近期活动

来自 Every Studio

复合工程可在任何编程工具中运行

复合工程 是 Every 与 AI 智能体协作构建软件的方法论,本周迎来了一次 重大更新。此前,它只能在 Claude Code 中流畅运行;团队对其进行了重构,使其现在能以同样的方式在 Codex 和 Cursor 等其他编程工具中运行,且无需像以往那样为保持更新而进行繁琐的设置。

它的项目规划方式也与以往不同了。过去,它维护着两份独立的文档——一份描述你想构建什么,另一份描述如何构建——但往往在构建过程中两者就会开始不同步。如今,它会撰写一份详尽到足以让你直接交给智能体后就能走开的统一计划。在测试中,智能体可自主运行长达 6 个小时,独立完成一个功能模块的开发、编写测试,并在首次任务交接后,无需任何人干预就能发起一个完整的 Pull Request。

Cora 重构版收件箱进入 Beta 测试

Cora 正在演变为一个功能完备的邮件客户端,并已准备好迎接 Beta 测试者。重构后的版本允许用户在桌面或 iPhone 的 Cora 中阅读、搜索、撰写和回复邮件,并保留了其原有的邮件分类、草稿生成和每日两次简报功能。如需加入 Beta 测试,请发邮件给 Kieran Klaassen,邮箱为 kieran@every.to

Monologue 变得更快、干扰更少

Monologue 的最新更新着重于让听写体验近乎瞬时完成——大多数用户将看到他们说出的语言在不到一秒内就转化为编辑好的文本。其编辑引擎的速度也提升了 30%,且并未牺牲准确性。除了速度,此次更新还增加了更多转录语言,改进了转录文本回传到其他应用的方式,并引入了一个光标指示器,当用户开始键入时会自动消失。新的“创作者模式”让 Monologue 在屏幕录制时更易使用,而新的复制格式则为用户提供了更多复用转录文本的选择。

观点对齐

为健康焦虑的人们制造的焦虑。我是个 Midjourney 的铁杆粉丝。我为它付费,会在饭局上驳斥那些认为 AI 无法创造艺术的人,并且我认为它创造了互联网上最漂亮的图像。所以,当要评价这个 AI 图像生成器的下一个想法是否是个好主意时,我显然不是合适的提问对象。但鉴于上周 X 平台上关于它最新尝试的激烈讨论,我还是想试试。

Midjourney 设想让你躺进一个温暖的池子里,池周围布满了 50 万个超声波传感器,在 60 秒内对你的全身进行扫描,整个过程中不使用那些在 CT 和 MRI 扫描中常用的、庞大笨重且有时令人恐惧的辐射或磁体。

这家公司的目标是改变医学影像的本质,使其从一次需要去医院才能完成的戏剧性事件,变成一种像血常规检查一样平稳日常且便宜的健康监测。这正是那种让“长寿”圈子垂涎欲滴的疾病早筛工具——一条通往预防疾病,甚至我敢说,长生不老的道路。

然而,医生们有充分理由反驳其潜在前提,即健康人群根本就不应该被扫描。对健康人群进行更频繁扫描的麻烦在于,你会发现各种可能毫无意义但又不能被忽视的微小异常。这些异常被称为“偶发瘤”(incidentalomas)。当患者量不大时,它们是可控的,但当这些扫描达到超大规模时,就绝非如此了。Midjourney 公开的目标是每月进行 10 亿次扫描。如果你将数量如此庞大的、健康但焦虑的人群引向一个本已不堪重负的医疗系统,你并不是在及早发现疾病,而是在制造一场由后续扫描、转诊、活检组成的海啸,诊所也将被那些在去了医学水疗中心(这些扫描将首先在那里推出)之前完全健康、之后却被灌输了恐慌的人挤满。

但这是个充满争议的话题,我理解个中缘由。如果一次扫描发现了一个肿块并最终确诊为癌症,那么对那个亲历者来说,它抵得过这世上所有的虚惊一场——而你听到的证言也总是来自这样的人。你从不会听到另外数千人的声音,他们因为某个最终被证明是虚惊一场的东西,接受了活检并忍受了长达两周的焦虑煎熬。

这一切并非要贬低 Midjourney 的技术成果。这项扫描能提供一份详细的体脂、内脏脂肪、肝脏脂肪和肌肉含量图谱,并能持续追踪变化——这对 GLP-1 类药物的使用者尤其有用,因为他们越来越关注自己的脂肪与肌肉比例。

所以,我会做吗?为了身体成分分析,我很乐意。但为了去猎寻可能潜藏在我体内的东西,不,因为我知道那条路通向何方,它是由尖锐的活检铺就的。为健康焦虑的人不需要更多去忧虑的理由了;然而,他们确实需要知道自己是由什么构成的,而在这一点上,这项扫描做到了。——Ashwin Sharma


核心启示:我们正步入一个悖论时代——构建和分发 AI 代理工具的障碍在快速消融,但决定这些代理有多聪明的“前沿模型”本身,却正成为一种被精英阶层严密配给的稀缺资源。

Everyone Gets an Agent. Almost No One Gets the Model. 的发芽报告

材料核心

AI能力正在按资本逻辑分配:前沿模型被少数企业垄断,普通人只能获得“代理”使用权而非“模型”所有权。这种不对称将深刻重塑知识工作的权力结构——工具民主化的表象下,是认知能力的阶层分化。


发芽 01:从印刷机到API——能力分发的历史拐点

种子

材料揭示了AI时代的核心悖论:技术越强大,接入越不平等。这并非新问题,而是“能力分发”在人类历史上反复出现的结构性张力。

古腾堡印刷术在1450年代发明后,前50年只有教会和贵族能拥有印刷机。知识生产工具被垄断,印刷机本身比书籍更稀缺。直到16世纪印刷所扩散到商业城市,普通人才能直接参与知识传播。但模式已经留下——谁掌握了生产工具,谁就定义了可传播的思想边界。

1830年代的英国,蒸汽机驱动的动力织布机让织布效率提升40倍,但机器所有权集中在工厂主手中。工匠失去议价权,他们的技能贬值,只能按工厂主设定的节奏和价格出售劳动。卢德分子砸机器不是反技术,而是在抗议“工具接入权”的单向剥夺。

材料中Mike Taylor的代币分配论与这一历史模式惊人相似:计算资源像资本一样按预期回报率配置。19世纪银行信贷流向已证明能偿还的工厂主,21世纪的算力预算流向能证明ROI的企业。前沿模型的接入不是技术问题,而是金融化下的资本配置问题。

Aha 瞬间

“技术民主化的真正敌人不是技术本身,而是分发的阀门。谁控制了接入点,谁就决定了谁能思考、谁只能执行。”


发芽 02:当编码代理变成知识工作的“万能插座”

种子

材料提到Codex从编码工具扩展为通用代理,Claude Code被重新发现为代理构建器——这不是产品迭代,而是界面范式的根本转变。编码环境正在成为知识工作的操作系统。

1985年微软发布Excel 1.0时,没人认为这是“通用思考工具”。它只是会计的替代品。但电子表格的单元格结构创造了意外的通用性——它可以在同一界面上做预算、项目管理、数据分析和决策模拟。Excel的胜利不是功能丰富,而是它成为“结构化思维的插座”,任何人都可以把自己的问题插进去。

Codex和Claude Code的演进遵循同一逻辑。编程接口本是为代码设计的,但它恰好能承载“可验证的复杂指令”。当知识工作者发现自己的任务——写报告、做研究、管理项目——本质上是结构化问题的变体时,编码代理就成为代谢这些任务的通用引擎。材料中Katie Parrott用Codex审计职业发展,Nityesh Agarwal用Claude Code构建通用代理,这些都是“意外通用性”的体现。

关键在于:这类工具不要求你成为工程师,而是把你原本模糊的工作流程翻译成代理能消费的结构化指令。这是知识工作的“Excel时刻”——最强大的通用工具藏在一个看起来狭窄的入口后面。

Aha 瞬间

“最好的通用工具往往伪装成专用工具出现。编码代理是知识工作的特洛伊木马——你以为是给工程师的,其实是为所有需要结构化思维的人准备的。”


发芽 03:机器的无欲与人的焦虑——一场不对称的博弈

材料核心观点重述

Edwin Chen在材料末尾抛出关键洞见:AI可以执行任何目标,但目标本身必须来自人类。模型没有自己的驱动力。

种子

这不只是哲学思辨,它揭示了人机关系中的根本不对称:机器拥有接近无限的执行能力,但欲望为零;人类欲望无限,但执行能力正被机器超越。这是“能力过剩”与“意义饥渴”的错配。

17世纪哲学家斯宾诺莎在《伦理学》中区分了“能动的自然”(Natura naturans,创造性的自然)和“被动的自然”(Natura naturata,被创造的自然)。在AI语境下,人类需要占据“能动的自然”位置——设定目标、定义价值、提出那些机器尚不能自发产生的问题。但材料展示的现实是,大多数人正被推向“被动的自然”一侧——使用代理执行别人定义好的任务,接入受到额度限制的模型,在被分配的token预算里做被期望的事。

斯坦福大学2024年的一项研究追踪了知识工作者使用AI后的认知模式变化。研究发现,频繁使用AI辅助决策的人群在“问题提出能力”上出现了15%的下降,但在“方案执行效率”上提升了40%。这不是AI的缺陷,而是使用模式的结构性结果:当你习惯了强大的执行工具,定义问题的那块肌肉会萎缩。

这正是Dan Shipper担忧的升级版:不仅是学生和独立开发者失去工具接入权,而是当模型使用被资本化分配后,大多数人的角色被锁定在“消耗token执行优化任务”上,只有少数人有权定义什么是值得优化的。

Aha 瞬间

“机器不会夺走你的工作,它只会夺走你对‘什么是值得做的事’的定义权——除非你守住提出问题的那一侧。”


你的思考空间

  • 如果算力像资本一样按预期回报分配,那些无法证明“ROI”的领域——纯理论研究、实验艺术、基层社会组织——会不会在认知资源上被系统性地边缘化?

  • 编码环境变成知识工作的通用界面后,“会用代理”和“会定义代理该做什么”之间的能力鸿沟有多大?这种鸿沟会被什么填平?

  • 当AI可以执行任何目标但目标必须来自人类,“找到正确的目标”变成唯一稀缺的能力。这种能力可以被教授吗?还是它原本就是权力结构的副产品?

  • Midjourney的健康扫描案例揭示了“到处寻找问题”的商业模式。当我们给每个人配上能“到处执行任务”的AI代理时,会不会也制造出知识工作中的incidentalomas——解决了无数小问题,但耗尽了解决真正重要问题的资源?