复合工程迎来升级

原文:https://every.to/guides/compound-engineering-gets-an-upgrade


原文配图

复合工程(compound engineering)的早期阶段,它的核心几乎完全围绕代码展开。我当时想弄清楚的是:能否让一个 AI 模型自己制定计划,按照我期望的方式完成工作,对照我的标准审查结果,并且真正吸收我反馈中的经验教训,确保下次不再犯同样的错误。这个循环大致是这样的:

头脑风暴 → 执行工作 → 审查回顾 → 持续复合 → 循环往复

这个循环至今仍然是我构建 Cora 的核心方式。

但距离我们首次提出“复合工程”这个词差不多一年之后,这个流程中“执行工作”的阶段已经变得相当乏味——当然,这是最好的那种乏味。只要计划足够好,AI 智能体(agent)得到了正确的上下文信息,它通常都能把事情做对。它会自己写代码、跑测试,并修复那些显而易见的问题。

现在真正值得思考的问题变成了:“在这个过程中,我的位置在哪里?”

答案是,人的位置恰恰在流程的两端。我在复合工程插件上的合作者 Trevin Chow 打过一个比方,他把这形容为一个三明治。AI 是中间夹着的馅料,而人类则是将一切聚合在一起、位于两端的面包。

在流程启动之初,我需要决定什么值得做。我必须理解用户、产品本身、那些古怪的边缘案例,以及某件事究竟凭什么让人感到足够兴奋,以至于值得投入时间去打磨它。之后,我才能把中间的执行环节交给 AI 智能体。当它完成工作后,我再回到流程的终点。我会点开产品各处看看界面设计,逐字阅读文案,扪心自问这个体验本身是否“感觉”对了。有时候,即便从技术层面上看一切都运转良好,产品依然可能差劲。所以,我来负责把它变得更好。

随着大模型的能力越来越强,最初的复合工程循环开始显得不那么完整了。计划、执行、审查和复合,这套逻辑依然精准地描述了工程上的核心周期,但它遗漏了如今我注意力投入最多的两个地方:计划形成之前,以及工作在技术上通过审查之后。

于是,我扩展了这个循环:

构思 → 头脑风暴 → 制定计划 → 执行工作 → 审查回顾 → 精雕细琢 → 持续复合 → 循环往复

“构思”和“头脑风暴”是流程新的前端环节。“精雕细琢”则是新的后端环节。而“持续复合”依然是其中最重要的一环——这套系统的全部意义就在于,每开发一个功能,都应该让下一个功能的开发变得更容易。

我更新了复合工程指南来阐述这套完整的系统。这份指南虽然关注的是工程实践,但我认为这个模式可以在更广泛的知识工作中推广应用。大量工作的中间过程注定会被自动化。然而,如果你渴望工作成果是优秀的,并且希望它带有你个人的印记,你仍然需要出现在一前一后,守住开端和终点。

阅读更新后的复合工程指南


核心启示:AI 正在吞下知识工作的中间过程,但最优秀成果的诞生,仍然离不开人类在起点定义“为何而做”和在终点守护“何为好”的判断力。

复合工程升级 的发芽报告

材料核心

Kieran Klaassen 将原有的复合工程循环从“头脑风暴→工作→审查→复合”扩展为“构思→头脑风暴→计划→工作→审查→打磨→复合”,揭示了当AI能稳定执行中间工作环节时,人类的价值已从被动的AI监督者重置为流程两端的“意义赋予者”——决定造什么,以及评判好不好。


发芽 01:知识工作的新结构——人类从工人到导演

种子

材料提出的“人类三明治”模型暗示,知识工作正在从线性生产线转变为“人类-AI-人类”的嵌套结构。这不是简单的自动化替代,而是人类角色的彻底转变:从执行者变成定义者和评判者。

这种转变的深层意义在于,人类正在从“制造者”退居为“意图设置者”和“体验策展人”。就像电影导演不再亲自操作摄影机、布置灯光,而是通过调度各专业团队来实现艺术愿景,知识工作者也需要学会在“构思”和“打磨”两个端点施展判断力,而在中间的执行环节信任AI代理。

1993年,管理学家彼得·德鲁克在《后资本主义社会》中预言,知识工作者的生产率将成为21世纪管理的最大挑战。他区分了“做正确的事”和“正确地做事”。近30年后,AI恰恰接管了“正确地做事”,把“做正确的事”推到了人类面前。德鲁克可能没有预见到,这种分工会在技术层面如此彻底地实现——不是通过更好的管理方法,而是通过AI代理直接替代执行环节。

另一个有趣的参照是设计思维(Design Thinking)的演进。IDEO和斯坦福d.school推广的设计思维五阶段(共情→定义→构思→原型→测试)一直是创意工作的标杆。但Kieran的新循环与设计思维形成了一种镜像:设计思维提倡人类在所有阶段深度参与,而复合工程承认AI可以在“原型”甚至部分“测试”阶段承担大部分工作。这不是对设计思维的否定,而是对它的重新聚焦——将人类注意力集中在“共情”、“定义”和最终的“测试”体验评估上。

Aha 瞬间

“你不是被替代了,你是被解放到更高阶的判断里。”


发芽 02:人类“打磨”的不可替代性——为什么AI通过测试不等于产品好

种子

Kieran明确指出:“有时候技术上一切正常,但产品仍然不好。所以我让它变得更好。”这揭示了AI驱动的工程面临的核心悖论:通过测试标准不等于实现了价值。测试可以验证功能,但无法验证感觉;代理可以解决逻辑问题,但无法体会美学断裂。人类“打磨”的深层意义,是对非功能性价值的修复——那种“感觉不对”的东西,恰恰是AI最难以编码的部分。

这种张力在AI时代具有普遍性。2024年,OpenAI的GPT-4o在多项基准测试上超越了人类平均水平,但用户在使用过程中仍频繁抱怨它的回答“感觉冷漠”或“缺乏直觉”。这种“感觉偏差”指向一个关键问题:AI优化的是可量化的维度(准确率、响应速度、语法正确),而人类评判的是不可量化的整体体验。

日本的“金缮”(Kintsugi)艺术提供了一个绝妙的类比。在修复破碎瓷器时,匠人不是试图掩盖裂缝,而是用金粉填充,使裂痕成为器物独特的美学特征。修复后的器物不仅在功能上“完好可用”,更在意义上超越了原本的完整状态。人类对AI输出的“打磨”,本质上是一种金缮工作——你修复的不是功能缺陷,而是那些让产品“感觉不对”的细微分歧,而你的修复往往使产品具有了AI无法创造的深度和个性。

更有趣的是,这一过程恰好挑战了“质量可以完全被标准化”的现代工业假设。20世纪,戴明的质量管理哲学试图将所有生产问题转化为统计问题;但21世纪的软件产品体验,尤其是AI辅助创造的产品,似乎重新召唤了不可还原的“匠人判断”。Kieran的“打磨”环节,是匠人精神在算法时代的回归。

Aha 瞬间

“在AI通过的每项测试之上,还有一场它从未被邀请参加的考试:人类的感觉。”


发芽 03:复合作为记忆引擎——从个人学习到系统进化

种子

Kieran强调,“复合仍然是整个过程中最重要的一步,因为关键是每个新功能都应该让下一个功能更容易。”这个看似环状的末端,实际上是一个自增强的记忆机制。它将每一次建造的经验教训——不仅是代码片段,还包括设计决策、用户洞察、失败模式——转化为了一个持续膨胀的能力资产。复合不再是“写下来备忘”,而是让下一次AI代理的规划和执行从更高的基线出发。

在组织学习理论中,这让人想起“组织记忆”(Organizational Memory)的概念。1991年,学者Walsh和Ungson提出,组织不仅是信息处理系统,更是记忆保留系统——制度、流程、文化都是组织记忆的载体。复合工程的革命性在于,它将这种记忆从人类团队的默契和文档中,转移到了一个AI可读取、可执行的即时系统中。当每一次的审查、修改和打磨都被编码成代理可以遵循的上下文,你实际上是在构建一个不断自我完善的“AI操作体系”。

更进一步,硅谷的“画在墙上”(Paint on the Wall)文化提供了一个对比视角。许多科技公司信奉“快速失败,快速学习”,但学习往往停留在口头——事后总结开会两小时,没人看复盘文档。复合工程将学习机制内化进工程循环本身,不是“事后反思”,而是“持续注入”。这本质上是将AI代理转化为了一面不会遗忘的镜子——你今天教它的事,明天它依然记得;你现在设定的标准,下一次自动生效。

这种机制的潜在影响远超个体效率。如果复合工程被广泛采用,每个产品团队都将拥有一个不断膨胀的“隐性知识库”,它们可能成为未来竞争的核心壁垒——外人可以模仿你的功能,但无法复现你的复合历史。

Aha 瞬间

“每一次循环不只是为了当前的产出,而是秘密地训练着一个只属于你的AI副本。”


你的思考空间

  • 在传统工匠或艺术家的创作中,“构思”和“打磨”一直由同一个人完成。当AI插入中间环节后,作品的“作者性”还完整吗?还是说,未来我们将接受一种“与人共创而非人手独造”的作者性?
  • 是否所有知识工作都适合这种“三明治”结构?哪些工作需要人类在中间环节持续介入,而不仅仅是两端?医疗诊断?心理治疗?法律辩护?
  • 当复合循环积累到一定程度,AI代理可能比人类更了解产品历史,甚至比人类更擅长“构思”和“打磨”。到那时,人类是否连两端的位置也会失去?还是这种外包本身会让产品失去人类特质,从而失去市场?