AI 应用的八个层级

原文:The Eight Levels of AI Adoption 作者:Mike Taylor, Laura Entis, Claude 日期:2026-06-02


一篇爆款帖子就足以让你觉得自己完全用错了 AI。有人并行跑着 12 个 Claude Code 会话,有人的智能体(agent)在他们睡觉时自动回复邮件,而你还在跟 ChatGPT 吵架。

但关键在于:跟上每一个重度用户的步伐并不是重点。从 AI 中获取价值的最佳方式是,以适合你工作的方式使用它——并定期检视一下,看看自己是否还能从中得到比现在更多的东西。(我曾在客户演示中用 Steve Yegge"Gas Town" 这篇文章来说明如何指挥几十个编码智能体,但这个例子跟我的实际体验不太吻合,所以我需要做些调整。)

本指南梳理了 AI 应用的八个层级,从基础的聊天机器人使用到全面的智能体编排(agent orchestration)。每上升一个层级,你就把更多工作委托给 AI,也对其投入更多信任。接下来的章节会逐一阐释每个层级在实践中如何运作,并附上示例提示词,帮助你判断哪些层级匹配你当前的需求和工作流、每个阶段能做到什么,以及什么时候该迈向下一个层级。

| 层级 | 描述 | | 1—聊天机器人 (Chatbot) | 你给它一个任务,它给你一个回复。(ChatGPT、Claude、Gemini) | | 2—副驾驶 (Copilot) | AI 存在于你的文件之中,在你身边协同完成工作。(Cursor、Excel 中的 Claude、Google Docs 中的 Gemini) | | 3—智能体 (Agent) | 你描述一个任务,智能体按步骤执行,并在每一步推进前征求你的同意。(Cowork、Codex) | | 4—自动驾驶 (Autopilot) | 你跳过审批环节,让智能体独立完成任务,然后你审查结果。(Lovable、Codex、Claude Code) | | 5—工作流 (Workflows) | 你构建一个系统,让智能体的输出变得更专业、更规范。(复合工程、Claude Workflows、Copilot AI Studio) | | 6—助理 (Assistant) | 智能体在后台主动工作,无需被提示触发。(OpenClaw、Hermes Agent、Claude Managed Agents) | | 7—多智能体 (Multi-agent) | 你同时管理多个长时间运行的智能体。(Claude Managed Agents、OpenClaw 或 Codex Goals) | | 8—编排器 (Orchestrator) | 一个管理型智能体代表你指挥一队子智能体。(Gas Town、Paperclip、Symphony) |

更高的层级并不一定更好。我认识的最顶尖的 AI 用户,往往同时在多个层级上运作,根据眼前的具体挑战来选定最合适的工作层级。一个任务的合适层级,大体上取决于两点:你有多信任 AI 能在不干预的情况下干好活,以及一旦它搞砸了,后果有多严重。对于高利害的任务,你要么待在较低层级以便亲自监督,要么就得准备好投入相应的时间、工程资源和 token,才能在减少人工监督的更高层级下达到同等质量。

我接触过的大多数觉得 AI 难以落地的人,都有充分的理由:要么输出质量对他们所做的工作来说太低了,要么要达到可用质量成本太高。安全地升入下一层级需要投入精力和实验——或者等待模型能力的一次跃升。

对大多数任务而言,匹配的合适层级也取决于你的角色。大致来说,知识工作者当下的甜区落在第 1 到第 4 层之间。工程师更常活跃在第 5 到第 8 层,部分原因是他们能自己搭建脚手架,让那些还不够成熟、不太稳定的系统在大众能使用之前先跑起来。

各层级详解

第 1 层——聊天机器人

[![[0-附件/Attachment/0430759f53586dd57f0accb5a4a9a1c5_MD5.jpg]]](/article-images/2026-06-02-the-eight-levels-of-ai-adoption/01.png)

它是什么: 你问,它答。这就是经典的聊天机器人体验:ChatGPT、Claude、Gemini,或任何没有嵌入到你文件或系统中的模型。你给它一个任务,它返回一个回复。

这个层级改变了什么: 你从自己包办一切,转向与一个随时可用的 AI 通才一起草拟和整合内容。

你可以用它做什么: 根据粗略笔记撰写内容,总结文档,或者就上传的文件回答问题。

试试看:

我需要给一位客户发送一封会后跟进邮件。这是我的粗略笔记、我们做出的决定,以及两个需要点出的风险。用一种冷静、自信的语气起草这封邮件,并在结尾列出三个明确的下一步。在开始写之前,如果有什么地方听起来不够清晰或缺乏依据,请先告诉我。

输入: 会议笔记

输出: 一封经过润色的邮件草稿,并能识别出还有哪些缺失信息有待补充

需要人的判断: 确认语气和事实无误,且邮件内容是你愿意为之负责的。


我上传了一份关于新福利政策的 20 页 PDF。请总结员工最关心的五个变动,然后回答以下三个问题:谁受影响,新时间表具体影响哪些政策,以及对于一个快速浏览的人来说,什么地方最可能产生困惑?

输入: 一份 PDF 或一组文档

输出: 一份摘要,以及基于原始材料对你的问题的直接回答

需要人的判断: 核实摘要符合事实,并确认模型在材料不明确时能意识到这一点。


什么时候该升级: 聊天机器人能协助处理各种各样的任务,但每次会话都需要手动设置:你必须解释你想要什么,提供必要的上下文,再把聊天机器人的回复转移到你真正干活的地方。如果你从聊天机器人的交流中获得了不少价值,但对复制粘贴感到厌烦,就可以考虑升入下一层了。

第 2 层——副驾驶

[![[0-附件/Attachment/99ea421abb6a575d356848e48177f7ff_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_943babb7-2e8e-41e7-b187-f404d05d89b1.png)

它是什么: 模型被嵌入到你正在工作的环境中,能够访问你的文档、电子表格、演示文稿、笔记应用或代码编辑器里的所有内容。

这个层级改变了什么: AI 不再是一个单独的标签页,而成为一个就地的协作伙伴,可以在你工作的同时扩展、修改和解读你正在做的事。

你可以用它做什么: 修改草稿,理解一组文档或工作区而无需手动把所有内容粘贴进聊天窗口,以及在不离开文件的情况下对实时电子表格做出修改。

试试看:

使用这份文档中已有的草稿,用相同的语气续写接下来的两节。保持语气与现有文本一致,保留现有的结构,并在开始前标出任何需要我提供示例或证据的地方。

输入: 一份未完成的文档、备忘录或社交媒体帖子

输出: 与现有材料相匹配的草稿续写

需要人的判断: 判断新的章节读起来是否像你写的,然后确定它们是否成功推进了你的论点。


这是我们 Q2 的现金流预测。用这些新数字更新每月总额,标出任何一个预测为负的月份,并在底部添加一行整个季度的汇总。

输入: 一份带有你现有现金流数据的电子表格。你想纳入的新数字可以直接粘贴到提示词中,或作为第二个文件提供。

输出: 更新后的月度现金流数据、一份预测为负现金流的月份清单,以及整个季度预测现金流的汇总

需要人的判断: 验证公式是否正确,检查汇总是否准确,并决定你想采取什么策略来应对预测为负的月份。


什么时候该升级: 副驾驶消除了手动提供上下文的需要,但它通常只能可靠地访问单个文件中的信息。如果你需要从多个来源提取、编译或分析信息,可以考虑升入下一层。

第 3 层——智能体

[![[0-附件/Attachment/cfd6366ccc6badbd0ac1f50e952f5477_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_82509d33-0272-448e-82e0-b515d33f0233.png)

它是什么: 你描述一个任务,智能体就一步步地去完成,并在过程中向你请求审批。它可以访问你的文件和系统,在你的电脑上执行操作,并从多个来源编译信息。

一个值得记住的关键区别:在这个语境下,智能体是响应式的。它会等你来发起,并且除非你明确告诉它,否则不会自行启动一个任务。

这个层级改变了什么: AI 成为一个真正的操作者,能够在监督下执行多步骤任务。

你可以用它做什么: 用一个文件中的数据更新另一个文件,或者从一组源文档出发,构建某样新东西——比如一个仪表盘。

试试看:

从这个电子表格中提取 Q4 的营收数据,然后用新数据、图表和评注来更新董事会演示文稿。在你应用之前,逐页向我展示拟议的修改,并在原始数据看起来不一致的任何地方标出来。

输入: 一份电子表格和一份演示文稿

输出: 与具体数据挂钩的拟议幻灯片更新

需要人的判断: 确认对数据的解读方式与你希望呈现的一致,纠正智能体可能遗漏的任何事实或语境问题,然后批准修改。


使用这份文件中的 NPS 数据,构建一个我能在浏览器中打开的简易仪表盘。我想跟踪总体得分、评论中的关键主题,以及不同细分市场对回复的分布情况。在你开始构建之前,告诉我你打算如何组织它,以及你对数据做了哪些假设。

输入: 一个数据文件,以及智能体可以工作的专用文件夹

输出: 一个可用的仪表盘,附带一份它如何构建的详细计划,以及一个它对数据所做假设的摘要

需要人的判断: 批准计划,确认仪表盘按你的期望运行,并决定智能体对数据所做的任何假设是否需要修正。


什么时候该升级: 使用智能体时,过程是迭代的——智能体完成一个步骤,你审查并优化,如此循环往复。当你愿意用放弃控制权来换取速度,或者希望在不写任何代码的情况下一次性出一个原型时,就可以考虑升入下一步。

第 4 层——自动驾驶

[![[0-附件/Attachment/89f0f6bad0f4d33401d8ac77a4b9365b_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_3088f1c9-89df-4e7b-97cd-026e933a6d03.png)

它是什么: 你跳过权限确认环节,让智能体独立完成一个任务,然后你审查结果。在第 3 层的智能体模式中,你因为在意每个步骤怎么做而全程参与。而在自动驾驶模式中——通常被称为 vibe coding——你描述你想要什么,让系统去跑,然后评估返回的结果。在这个阶段,你通常是在构建其他用户会与之互动的东西,比如一个原型或一个落地页。

决定哪些任务可以放在自动驾驶模式下完成,取决于模型的能力有多强,这个计算随着每次模型发布都会变化。比如说,我很乐意在自动驾驶模式下做一个落地页,因为现在的模型已经足够好,能做出符合我标准的页面。但对于一个复杂的幻灯片演示,我还做不到——至少目前还不行——出来的结果离我想要的差太远,修正它比我自己做还费时间。随着模型不断进步,你可以把更多的工作放在自动驾驶模式下完成。

这个层级改变了什么: 你把整个任务交给模型,然后审查最终结果,而不是在过程中边做边改。

你可以用它做什么: 构建原型、内部工具和第一版产品。自动驾驶是第一个让你无需自己写一行代码就能构建出其他人可以用的东西的层级。它也通常能覆盖一些常规任务,比如填写重复性表单或草拟每周状态报告。

试试看:

为我们的销售团队构建一个轻量级的内部线索评分工具。它应该允许我们粘贴客户备注,给出 1 到 5 分的评分,并显示哪些因素影响了评分。现在先用虚拟数据,界面要足够简洁,让我明天就能做演示。

输入: 用通俗语言描述工具应该做什么、谁会用它,以及任何限制条件,比如是否需要能在浏览器中运行或保持本地运行

输出: 一个能正常运作的原型

需要人的判断: 测试输出并决定是否达到演示标准。原型不必完美,但值得留意在把它放到用户面前之前,哪些地方需要投入精力来提升可靠性。


为我们的新功能构建一个落地页。它应该解释这个功能做什么,包含一个清晰的行动号召,并与我们现有网站的语调和品牌颜色相匹配。要能响应式适配。

输入: 一份产品简介、品牌指南,以及现有网站作为参考。品牌指南可以简单到只是一个调色板和几句关于语调的描述;如果你没有正式文档,用一两句话描述一下你的现有网站就足够开始了。

输出: 一个能正常运作的落地页

需要人的判断: 读一遍文案,在手机上测试页面,然后决定是否准备好可以更广泛地分享了。


什么时候该升级: 自动驾驶很快,但产出往往参差不齐或不太可靠。对于原型来说这可能没问题,但对于利害关系更高的工作,你会想要围绕智能体构建一个可重复的系统,来规范它的思考和执行过程。如果你想要自动驾驶的速度和灵活性,但需要更具结构化的质量控制,就可以考虑升入下一层。

第 5 层——工作流

[![[0-附件/Attachment/de7cfdc932fa49a6cea8c6a07bbbd956_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_50985b3b-17a4-4072-a6df-9e0572270492.png)

它是什么: 你围绕智能体构建一个系统(或称“挽具” harness),让它的输出变得专业且规范。智能体不再是一次性的单次运行,而是会做计划、自我审查、执行置信度检查,并通过其他防护措施来运行代码,从而使结果更加可靠。这是从 vibe coding 向智能体工程(agentic engineering)的转型。速度仍然很快,但因为你已经结构化了这个过程,并加入了能捕捉和修复错误的护栏,所以输出质量更高。

这个层级目前主要是工程师的领地。审查计划、评估需要做哪些测试、设计防止智能体失控的挽具——这些都需要对底层机制有理解。这篇 复合工程指南 对此有详细的论述。在接下来的六到十二个月里,这套方法的大部分会被平台内置吸收;但在当下,实施它仍然需要技术判断力。

这个层级改变了什么: 你不再把智能体当作一次性的表演者。通过设计一个智能体能遵循的可重复过程——并把你的标准编码进这个过程——你可以信任它去处理那些你原本想亲手做的工作。

你可以用它做什么: 通过“计划-审查-实施”循环来交付功能,将 vibe coded 的原型转变为足够稳定、可以投入生产的东西,或者建立一个团队里其他工程师也能遵循的流程。

试试看:

在编写任何代码之前,运行 /plan(Claude Code 中的计划模式,或复合工程中的 /ce-plan)。

/ce-plan 检查这个代码仓库,并为一个客户支持收件箱视图的新增功能提出计划。写明你预计会触及的文件、边缘情况,以及你将如何验证其行为。等我批准后再实施。

输入: 智能体有权限访问的代码库,以及一份书面的功能需求或规格说明。你能提前给出的上下文越多——现有的架构模式、相关文件、已知约束——计划就会越好。

输出: 一份功能构建计划,你可以在智能体动手实施任何东西之前审查它

需要人的判断: 评估计划,做任何必要的改进,然后再让智能体实施。


在智能体完成一项修改后,运行 /ce-code-review(或让它审查自己的产出)。

像一个持怀疑态度的队友那样审查这次修改。告诉我你从 1 到 100 的置信度有多少,列出实现中最薄弱的部分,然后做第二轮改进,直到你的置信度达到 90 以上,或者能清楚地解释为什么达不到。

输入: 已完成的修改——一份 diff、一组修改过的文件或一个拉取请求——外加智能体工作时参考的原始规格或计划,以便审查能检查实现是否与指令相符

输出: 一份自我审查、置信度评分,以及功能的一个改进版本

需要人的判断: 判断置信度评分是否合理,以及你是否赞同审查意见。如果智能体给自己打高分,但你发现了它没有标出的问题,就把这些问题指出来,让它再改一轮。


什么时候该升级: 即使是最复杂的工作流也需要你去激活它,这对某些任务来说就会成为瓶颈。如果你的生活或工作中有一些领域,你愿意信任一个智能体在不先跟你确认的情况下去处理,就可以考虑升入下一层。(在当前模型的发展阶段,这更多是指利害关系较低的管理或家庭事务。)

第 6 层——助理

[![[0-附件/Attachment/0122784ed2305c8237e1807e36d11623_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_aedc1a8d-12f9-4e2c-8832-c97a2a02d24a.png)

它是什么: 与第 3 层的智能体不同——那种智能体等着你告诉它做什么——助理无需被提示,就会主动代表你行动。它可以监控某个领域、做重复性工作,并全天候提取相关信息。例如,OpenClaw 的 heartbeat.md 文件每半小时触发一次,带着关于优先级的指令,智能体据此自动采取行动。无需提示。

这个层级改变了什么: AI 从提供响应式帮助,转变为提供主动的、持续的支持。

你可以用它做什么: 反复进行的研究,监控你关心的某个主题,或者那些否则就会被遗漏的个人行政事务。

这个层级仍然需要技术知识,或者至少需要能接触到某个人,他可以带你完成入门流程,并在你的助理出问题时帮你修复。在我们的咨询团队里,我们有一个 AI 助理负责所有的项目管理和销售管线相关任务,但它之所以能 可靠运作,只是因为有 Every 的资深工程师 Nityesh Agarwal 在维护它。

OpenClaw 是个人 AI 助理最流行的平台,但它本质上不稳定,设置也很耗时。它的记忆问题尚未被解决,所以它可能难以在会话之间保持上下文。

在当前模型的能力状态下,利害关系较低的个人用途——比如监控收件箱里来自孩子学校的邮件,或者追踪家庭采购——比把助理接入你的工作系统更容易上手得多;后者需要工程和 IT 的支持才能安全地做到。在这个层级,风险承受能力比之前任何层级都更重要。

试试看:

每 30 分钟检查我的日历,标出未来两小时内需要准备的活动。如果某个会议没有议程,就根据会议标题和参会者草拟一个简短的议程建议。

输入: 日历访问权限,以及你关于哪些活动需要准备的偏好——例如,你是否需要被提醒一对一面谈、外部通话,或者所有超过 30 分钟的活动。输出通常会送到像 Slack 这样的消息应用中,不过具体设置取决于你使用哪个平台。

输出: 一份定期发送到你选定消息应用的简报

需要人的判断: 决定什么是真正紧急的,并根据结果调整规则。


监控我收件箱里来自我孩子学校的邮件。每天早晨给我一个简短摘要,告知我需要知道或需要处理的事情。同时维护一份最近的食品杂货采购流水账,当我们常用的基本食材快用完时提醒我。

输入: 对你的日历、收件箱和收据的访问权限

输出: 一份每日简报和一份持续更新的家庭库存

需要人的判断: 核实摘要是否捕捉到了最重要的信息,以及智能体是否准确识别出需要补货的食品杂货。


什么时候该升级: 设置得当的话,一个永不离线的助理可以主动处理相当多样的任务。如果你希望助理为你完成更多事,但不想打断它现有的工作流或担心让它的记忆负担过重,就可以考虑升入下一层。

第 7 层——多智能体

[![[0-附件/Attachment/4bbd30b2b256538f85893a34233dc07c_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_8acad988-d418-40d4-96b7-63e1918f0b2f.png)

它是什么: 你同时管理多个长时间运行的智能体或助理。每个都有自己的角色、任务或职责领域,你的工作开始更像是领导一个小团队。这个层级稳稳处于资深工程领域——知识工作者同时运行多个并行智能体会话的情况还很罕见。

这个层级改变了什么: 当你从单个智能体执行一个任务,转变为让多个智能体并行处理任务,你的生产力会成倍增长。

你可以用它做什么: 同时运行实现和规划,或者将重复性的调研工作自动化,使其不再需要你的直接关注。

试试看:

你已经有一个始终在线的智能体——也许是一个在它自己的 Mac Mini 上运行的定制 Claude 智能体——负责处理你的编辑工作。与其打断它的工作流让它去做一个不相关的任务,不如设置第二个智能体,让它负责另一项工作职能:“你负责我们的客户支持收件箱。对新进来的工单进行分类,为常规工单草拟回复,并标出任何需要人工处理的事项。”

输入: 一个自定义的、长时间运行的智能体,有其自身的职责范围、工具和记忆,与第一个隔离开,以免它们的上下文互相干扰

输出: 两个并行工作的智能体,各有不同的工作职能、技能和记忆


系统地检视每个智能体的工作,判断它是否在按你需要的水平执行,以及它的职责描述是否足够聚焦,使其记忆不会负担过重。

输入: 一个连接到智能体触发器的缺陷报告系统

输出: 稳定流出的拉取请求,每个都对应一个特定的已报告问题

需要人的判断: 审查每个拉取请求,合并通过的那些,并识别出智能体误诊问题的案例。


什么时候该升级: 长时间运行的智能体之所以有价值,是因为它们能在很大程度上独立工作,但你仍然需要设定它们的目标并评估它们的进展。当你有了太多这样的智能体,以至于忘了谁负责什么的时候,就可以考虑升入下一层了。

第 8 层——编排器

[![[0-附件/Attachment/b7bc47024efc3bd88e12448424e15675_MD5.jpg]]](https://d24ovhgu8s7341.cloudfront.net/uploads/editor/posts/4283/optimized_73dabd59-1756-4842-9a90-1df893c9e224.png)

它是什么: 一个编排器智能体管理一队智能体。它做计划、分配任务、监控进度并整合产出,这样你就能聚焦于更宏观的事务,比如设定总体目标或审查重大决策。像 Gas TownPaperclip 和 OpenAI 的 Symphony 这类工具就是这个模式的早期例子。

需要特别指出的是,这个层级目前高度处于实验阶段。即便是处于前沿的工程师,也仍然在很大程度上自己充当编排器的角色,而不是信任一个编排器智能体去处理复杂的协调工作。

这个层级改变了什么: 你不再管理每一个个体智能体,而是专注于设定目标、确立约束条件,以及实施审批门槛。

你可以用它做什么: 那些只有在你能把自己这个瓶颈移除掉之后、经济上才合算的项目——构建一个系统来跟踪谁在做什么、协调多个智能体之间的工作顺序、确保正确的问题在不经过你的情况下被升级上报。

试试看:

一个始终在线的智能体从你的项目管理软件中取下一个队列中的工单。“你的工作是为这个 SEO 关键词 [插入关键词] 设计一个落地页。把研究拆解成与该主题相关的并行搜索查询,搜索我们公司的文档以寻找独特的洞见,然后使用 /brand-style 技能写出一个完整的页面。”智能体们持续领取并完成工单,直到面板清空,完整的项目准备好接受人工审查。

输入: 一个高层级目标、定义好的智能体角色,以及关于什么需要人工审查的规则

输出: 一个被托管着的项目,你收到的不是每个并行运行智能体的原始输出,而是关键更新

需要人的判断: 判断编排器是否在合理地做问题分流,还是交给你审查的东西太多——或太少。


建立一个流水线,对照我们的代码库标准审查每一份代码提交,运行测试,检查常见问题,并只在需要做出判断决策时才将问题升级给我。

输入: 一个仓库、贡献指南和一套测试套件

输出: 一个简短的待处理升级事项队列,需要你输入意见,而不是数百个需要你手动分流的原始提交

需要人的判断: 设定什么才够格称得上需要你关注的事物的门槛,并根据需要升高或降低标准。智能体可以标出那些任务供人工审查,也可以自主处理整个项目,直到所有测试通过,并且智能体录好了端到端软件运行正常的视频。

这些层级衡量的是什么

这套分层体系并不隐含价值评判。举例来说,绝大多数人都不应该去追求编排这个层级,因为模型对大多数用例来说还不够可靠。话虽如此,随着技术的进步,重新审视一个以前你或你的公司够不着的层级,也许是值得的。模型的发布可以把所有人都往上拉一截,让工具和系统更可靠、更容易使用。

如果你从这篇指南中只带走一件事,那应该是:AI 的使用不是一场竞赛。你不会去吹嘘自己有八个实习生通宵达旦地干了一个关键项目,而你根本没检查过他们的产出。相反,你会和他们密切合作好几个月,直到你有信心他们接受了足够的训练,能够在更高的自主层级下独立工作。对待你的智能体,也应做好投入同等努力的准备,然后才能信任它们在下一个自主层级上产出可靠的结果。

判断哪些层级适合你的具体需要——而不是为了攀爬而看你能爬多高——是你想要更好地利用这项技术时,所能做的最重要的事。


核心启示:AI 应用成熟度并非一条必须爬完的阶梯,而是一组根据任务利害关系和信任程度灵活选用的工具箱;真正有效的策略是在正确的事情上停在正确的层级,而不是盲目追求更高层级的自动化。

《AI的八个使用等级》的发芽报告

材料核心

Mike Taylor等人提出了一套AI采纳的八级框架,核心理念是:等级高低并不代表能力优劣,而是反映了人对AI的信任程度和委托意愿;真正的智慧在于为不同任务匹配恰当的等级,而非盲目追求最高级。


发芽 01:深度追问——信任是如何被“校准”的?

种子

材料反复强调,能否提升等级取决于“你有多信任AI不会搞砸”。但问题是,信任从何而来?材料暗示了答案:不是来自对AI能力的盲目信仰,而是通过设计“校验机制”逐步建立。从L3的每步审核,到L4的结果审查,再到L5的置信度自评,本质上是在构建一个信任校准系统——让AI在犯错时,错误能被发现、隔离和纠正。

故事:航空业的自动化悖论

1988年,空客A320首次引入电传飞行系统,它能理解飞行员的指令,但会在计算机判断指令“危险”时予以否决。这引发了一个根本性问题:该信任飞行员,还是信任代码?

三十年后,2019年狮航和埃塞俄比亚航空的波音737 MAX空难,将这个问题悲剧化地呈现。MCAS系统被设计为“安静的后台代理”,在飞行员不知情时自主压下机头。然而,当传感器失效,这套“无声的助手”成了失控的杀手。关键教训不在于自动化不可靠,而在于缺乏可校验性:飞行员不知道系统在做什么,也没有简单的方法覆盖它。

反观航空业最成功的“人机协作”案例,是近地警告系统和空中防撞系统。它们不替机长做决定,而是在关键时刻大声提醒,将所有选择权留给人类。这正是材料中L3“Agent”的设计哲学:执行,但在关键节点停下,等待审批。

更深一层的启发来自核电站的纵深防御原则:不依赖任何单一屏障,而是设计多层独立校验。L5的Workflows级别体现的正是这一思想——规划、审查、置信度评分、直到高于90分才放行。这不是对AI的不信任,而是对系统性风险的尊重

Aha 瞬间

“信任AI的关键不在于它有多聪明,而在于你能否在它搞砸时,第一时间就知道,并且停得下来。真正限制你采用更高等级的不是AI的能力,而是你设计的校验机制有多强健。”


发芽 02:横向关联——从“科学管理”到“代理管理”

种子

材料描述的高等级AI使用(L6-L8),本质上是将AI视为可管理的能力单元。当L7要求你“管理多个长期运行的代理”,L8要求“一个管理者代理协调子代理团队”时,这已经不再是技术问题,而是管理哲学问题。我们需要从20世纪初的“科学管理”传统中寻找参照。

故事:泰勒主义的重生

1911年,弗雷德里克·温斯洛·泰勒出版《科学管理原理》。他提出,管理者不应该直接参与生产,而应该通过以下方式提升效率:

  1. 将复杂工作分解为标准化的微任务
  2. 为每个任务设计最优方法
  3. 培训工人严格执行
  4. 管理者只处理“异常”而非日常事务

这套思想在工厂流水线上创造了奇迹,但也因其将人视为可替换零件而饱受批评。

现在,将这个框架映射到材料中的L7-L8:

  • 每个AI代理都是一个“泰勒式工人”,专注于单一职责(客服、代码审查、项目管理);
  • 工作被分解为“拉取新工单→执行→提交审查”的标准循环;
  • 人类从执行者变成“异常管理者”——只处理那些代理无法判断的边界案例;
  • L8的Orchestrator是泰勒理想的终极形态:一个机械式的管理者,它自己也是被编程的管理算法。

但这里潜藏着一个泰勒当年就遇到的困境:当工人只做标准化任务,谁来负责创新和跨界洞察?材料已经暗示了这个风险——“代理的记忆还没被解决”,“上下文会混在一起”。当代理碎片化到每个都只看局部,系统整体的智慧从何而来?

另一个值得审视的参照是亚马逊的微服务架构。他们将每个服务“原子化”,服务之间通过API通信。这带来了极大的灵活性和扩展性,但也制造了“分布式单体地狱”——任何一个服务的故障可能引发连锁反应,而没有人理解全局的依赖关系。

这暗示:材料中的八级框架如果推向极致,可能会遭遇管理上的复杂性瓶颈。正如软件工程中的康威定律所述:“系统的设计结构必然复制组织的沟通结构”。如果AI代理的“组织”设计不佳,它们的产出也会是碎片化的拼凑。

Aha 瞬间

“当你把AI当成可以无限拆分和管理的‘数字泰勒式工人’,你就继承了科学管理一百年前就暴露的张力:效率的极致会制造出理解和协调的黑洞。最高级的AI使用,不是把任务分得更细,而是知道什么时候不分。”


发芽 03:哲学升华——当“使用”变成“领导力”

种子

材料结语说:“你不会吹嘘有八个实习生连夜工作而你还没检查他们的产出”,这说明AI使用的最高境界不是技术操作,而是领导力。L6以上的AI使用者,本质上是在做管理者做的事:设定目标、建立标准、处理异常、培养能力。

故事:从“工具”到“团队”的认知跃迁

2016年,AlphaGo与李世石的人机大战第四局,当李世石下出“神之一手”(第78手),AlphaGo出现了明显的计算混乱。这盘棋后来被AI研究者反复研究,因为它揭示了一个深刻的真相:当人类不把AI视为完美计算器,而是视为可被震惊的对手时,反而能找到它的弱点。

这与材料中的哲学形成呼应:AI不是神灵,它是能力强大但也会出错的“数字同事”。区别在于:

  • L1-L3的思维是“我使用工具”;
  • L4-L5的思维是“我操作系统”;
  • L6-L8的思维必须是“我领导团队”。

领导力领域的经典研究——哈佛商学院琳达·希尔的“管理者的三个转变”——在这里同样适用:

  1. 从专家到架构师:你不再自己写代码或写邮件,而是设计代理能遵循的规则和标准;
  2. 从执行者到赋能者:你的价值不是产出更多,而是让代理们产出质量更高;
  3. 从控制到信任:你必须接受代理可能犯错,并通过系统设计而不是微观管理来应对。

但这里存在一个更深的哲学问题。彼得·德鲁克曾说:“效率是把事情做对,效能是做对的事情”。AI的八个等级衡量的是效率——如何更快、更好地完成任务。但它不回答效能问题:什么样的任务值得做?哪些人类特质——判断力、同理心、道德直觉——不应该被委托?

材料在L6提到风险时说:“让助理访问你的工作系统需要工程和IT支持才能安全做到”,这实际上是在说:你委托的不仅是任务,而是代理权本身。当AI代理在你睡觉时替你发邮件、做决策,它行使的权力边界在哪里?这已经不是生产力问题,而是数字伦理问题。

Aha 瞬间

“AI使用的八个等级,表面上是在谈生产力和自动化,但L6以上其实是一份‘领导力自检测试’。如果一个人从来没有反思过如何培养实习生、设定边界、处理不可靠的队友,那他也不太可能真正驾驭高等级AI——不是因为技术不够好,而是因为他还没准备好当一个委托人,而不只是一个使用者。”


你的思考空间

  • 关于信任校准:你现在使用的AI等级中,有哪些“校验机制”?如果AI犯了一个你完全没想到的错误,你会第一时间发现吗?还是说,你的工作流程已经放弃了“可校验性”?

  • 关于角色定位:如果你明天突然有一个AI团队(L7),你最担心的是什么——是他们搞砸任务,还是你失去对全局的理解?这种焦虑告诉你自己管理风格中哪个盲点?

  • 关于权力边界:L6的助理可以“在你睡觉时替你行事”。你有哪些决策是永远不应该交给AI的,不管它多可靠?这个边界是随着AI能力进步而改变的,还是由某种不可动摇的价值观锚定的?

  • 关于效能陷阱:你的AI使用,是在帮你“把事情做对”,还是在帮你想清楚“什么才是对的事情”?如果AI让你的效率提升了10倍,但你仍然在错误的方向上狂奔,你如何察觉并及时转向?