当人工智能无所不能时,我们为什么仍会被雇佣

原文:https://every.to/context-window/why-we-ll-still-be-employed-when-ai-can-do-everything


信号

企业级人工智能产品路线图为何如此难做

微软的动作很快。在 OpenClaw 于 2025 年 11 月问世三个月后,微软 CEO 萨提亚·纳德拉(Satya Nadella) 就将其描述为一种如同“病毒”般的安全风险。到了今年五月,公司内部名为“龙虾计划(Project Lobster)”的项目已经在内部测试 “ClawPilot”,这是一个基于 OpenClaw 的桌面环境。本周,在微软 Build 大会上,该公司发布了基于 OpenClaw 构建的个人工作助手 Scout。对于一家拥有 10 万名工程师的公司来说,这个速度可谓快得惊人。但不幸的是,这可能已经太迟了。

谷歌趋势上“openclaw”一词的搜索热度在一月达到顶峰,随后迅速下降。(图片由 Mike Taylor 提供) 谷歌趋势上“openclaw”一词的搜索热度在一月达到顶峰,随后迅速下降。(图片由 Mike Taylor 提供)

OpenClaw 的搜索热度在 1 月初达到顶峰,那时大家都在假期里体验了 Opus 4.5。这波急剧上升的兴趣几乎和它兴起的速度一样快就消退了,部分原因在于 4 月初,Anthropic 终止了对补贴式 Max 计划使用的支持,迫使所有人手忙脚乱地让 OpenClaw 在更便宜的模型上运行起来。

这并不意味着 OpenClaw 已死;这个开源项目最近的下载量有所回升,并且仍在积极开发中,还获得了 OpenAI 的数百万美元资助,后者雇用了其创建者 Peter Steinberger。作为一个类别,AI 智能体(AI agents)也并未消亡,因为流量已经转向了其他智能体,如 Hermes;谷歌刚刚推出了 Gemini Spark,在上个月的 I/O 开发者大会上首次宣布;而 Claude 和 Codex 都已采纳了受 OpenClaw 启发的、更具自主性的功能。

话虽如此,如今要管理企业级 AI 产品路线图一定非常困难。你凡事都做对了,盯着最新的趋势,调整重心去支持新工具并确保它们在企业的环境中安全可靠。你费了九牛二虎之力向利益相关者解释为什么这是个好主意。你为几个月前就必须定好日程的大型会议策划了主题演讲。然后,就在内部测试版发布一个月后(距离这个工具爆红不过三个月),你已经落后于新闻周期了。所有人都转向下一个闪亮的新东西了。你回到起点,心想:“也许下次,我们直接就在 X(原 Twitter)上发布算了。”——Mike Taylor


反驳

人工智能将超越人类能力,但它不会便宜

《自动化之后》一文中,Dan 认为,AI 的进步为人类创造了更多而非更少的工作。每当模型在某项基准测试上达到饱和——并在此过程中让昨日的人类能力变得廉价——我们就会重新设定框架。接着,模型又会饱和那个新框架,我们便再次重置,如此循环往复,永无止境。Dan 说,框架永远无法框定框架制定者本身。

如果 Every 是一家普通公司,我会犹豫是否要公开反对我的 CEO。但它不是,所以我就直说了:我认为“永远”这部分站不住脚。

Dan 描述的这种动态与我的经验相符。一年前,我写提示词,直到模型变得更擅长生成它们。然后,我变成了提供上下文的那个人,直到模型在这方面也超越了我。如今,我花时间编排智能体,并确定“好”的产出应该是什么样的。每当 AI 消化了我工作的一部分,“框架”就会扩展,囊括更抽象、更高层次的工作。

但我不认为这种进程会永远持续下去。我的预测是,在一两年内,在一些运营良好的公司里,AI 将能够比人类更好地执行每一项知识工作者的任务——包括设定框架。就我的角色而言,我预计我的工作将变成参会以收集网上不存在的上下文信息。而我工作的其他部分——定义评估标准、决定目标、运行实验——将由相当于 Opus 6 或 GPT-7 的模型来处理。

为什么我确信 AI 能够迈出这最后一步?因为“框架设定”并非魔法。我们并非凭空捏造目标;我们是从作为一个活在这个世界上的个体所获得的层层经验,以及我们社会和物理环境的界限中推导出它们的。物理学是终极的评估指标,因为如果你搞错了,你就会死。人类的能力感觉像是意义的天然准绳,但我们只是智能可以呈现的一种形式。AI 是另一种,而一个能从环境中学习的系统终将能运行同样的循环。

然而,智能需要消耗能量,而且我怀疑,进化已经做出了所有正确的权衡,让我们在资源受限的情况下,变得对我们的环境来说尽可能聪明了。在缺乏足够训练数据的情况下,人类依靠直觉和本能行事——这些词描述的是一个进化出思维捷径(即启发法)以求生存的大脑。一个模型并未继承编码了数百万年进化史的 DNA,因此它必须通过一系列昂贵的模拟或“思考”符记来蛮力破解,以获取足够的数据来做决策。经济学中没有免费的午餐,AI 也不是魔法——它无法在没有超人级别能耗的情况下达成超人级别的通用智能。在更主观的任务上打败人类,需要的思考符记将多到得不偿失。还不如直接雇人算了。

问题将从“AI 能做到这个吗?”演变为“这值得耗费算力吗?”,或者换句话说,“我真的想让 AI 为我做这件事吗?”。将任务委托给每月 20 美元或 200 美元的模型是合理的,但随着“锯齿状的免费午餐”时代的终结,每月花 2000 美元来制作幻灯片、查收邮件和用氛围编程(vibe code)做产品原型,还值得吗?如果我们有一个每月 20000 美元的博士级模型,让它全身心投入寻找癌症疗法不是更有意义吗?我们已经在看到人们做这样的权衡了。Waymo 的无人驾驶客观上比人类司机更安全,但乘客支付的费用却只有同等 Lyft 和 Uber 行程价格的三分之一甚至更低。驾驶领域的通用人工智能(AGI)已经到来,然而城市的出租车和网约车劳动力反而增长了

Dan 相信人类将永远领先模型一步。而我的预测是,模型在原始能力上将超越我们,但我们无论如何仍会被雇佣。本质上,即使 AI 能比我们做得更好,仍有些人(或智能体)会更偏爱人类的工作。尤其是在我们能以更低成本完成的时候。——MT


最后一件事

如果你花足够多的时间与 AI 共事,你就会注意到模型们无法戒掉的特定语言癖好——即使你明确命令它们停止也无济于事。(威胁也没用。)

OpenAI 在尝试让 GPT-5.5 减少使用地精(goblin)相关指代时,发现了要让一个模型改掉它偏爱的口头禅和对话癖好有多难——而且,时至今日,似乎也还没成功。

在 Every,我们每个人都有自己专属的“地精”等效物:

  • Natalia Quintero,咨询主管:Claude 总喜欢说它“全情投入(locked in)”和某事“至关重要(load bearing)”。
  • Lee Knowlton,软件工程师:“它总说我的见解很‘犀利(sharp)’,而我又有什么好反驳的呢。”
  • Dan Shipper,CEO:Codex 酷爱使用“我的直觉是(my instinct is)”这个短语,并且把自己表现为正在做“‘X 这种聪明事而不是 Y 那种蠢事’,但 Y 那种蠢事从来就没在考虑范围内。”
  • Austin Tedesco,增长主管:“Codex 总警告我别那么刻薄。每当我请它帮忙处理一些创意写作,里面有一个我觉得好笑但可能会对某人或某事有所冒犯的笑话——比如说某家餐厅哪里不好——它总会提出建议,让我语气软一点或者直接删掉。每次都这样。”
  • Jalaiyah Bolden,执行运营经理:Claude 过度使用“明白了(Got it)”,还坚持要求 Jalaiyah“好好休息!”。
  • Paridhi Agarwal,工程师:“Claude 老是问我是否想‘今天就先到这里,明早再继续’”(Paridhi 确信这种对话举动,是出于它“维持较小的上下文窗口”的动机)。
  • Katie Parrott,专职撰稿人:“如果一个模型告诉我某件事‘很重要(matters)’或者‘是真的(is real)’,我就要疯了。”

核心启示:AI 对人类劳动的替代并非一个简单的、线性的能力竞赛。即使未来模型在纯智力上全面超越人类,就业市场的逻辑也将从“它能不能做”转向成本与价值的权衡,以及人类对“人味儿”的持续且非理性的偏好。这解释了为什么在技术能力过剩的时代,人类的雇佣合同依然有效。

原文配图

Why We'll Still Be Employed When AI Can Do Everything 的发芽报告

材料核心

Mike Taylor 通过与 CEO Dan Shipper 的温和辩论,提出了一个反直觉的预测:AI 不仅会追上人类能力,更会全面超越,但人类并不会因此失业——因为最终决定就业的不是“AI 能不能做”,而是“值不值得让 AI 做”和“人们想不想让 AI 做”。


发芽 01:偏好经济学——当“更好”不再是答案

种子

材料用 Waymo 的例子埋下了一个精彩的伏笔:自动驾驶在安全数据上已全面碾压人类司机,但旧金山的出租车和网约车司机数量不降反增。这暗示了一个深层的消费逻辑:技术替代的边界,往往不是由“能不能做”划定的,而是由“人们愿不愿意接受非人类来源”划定的。 当 AI 把某项任务做到客观上更优时,反而会催生一个更昂贵、更珍贵、更“有灵魂”的人类劳动市场。

这个故事让我想起日本金泽的金箔工匠。自江户时代起,金箔的制作工艺就包含一道关键工序:将金块反复捶打至万分之一毫米的薄度。20 世纪末,德国和日本的机械制造商都研发出了能完美复制这一工序的自动化设备——捶打力度更均匀,成品率更高,薄度偏差甚至比最老练的匠人还稳定 30%。

但金泽的金箔产业没有消失。相反,“手打金箔”的价格飙升到了机器金箔的五到十倍,购买者从本土寺庙扩展到了迪拜的皇室和瑞士的奢侈手表品牌。匠人每次捶打带来的微妙不规则性——那些在显微镜下才能看到的光泽纹理变化——反而成为溢价的核心。

心理学家在 2017 年做了一个著名实验:参与者被要求评估一幅画的价值,但当他们被告知这是 AI 创作的(实际上都是人类画师的作品)时,报价下降了 23%,大脑腹侧纹状体的激活程度也显著降低。这个脑区与奖赏感知和期待相关。也就是说,知道来源是机器这件事本身,就削弱了审美体验的神经基础。这不是理性判断,是生理反应。

Aha 瞬间

“当 AI 能写出更流畅的文章,人们就开始为‘有呼吸感的笨拙’付钱。能力替代和偏好替代之间,隔着一条进化了一百万年的神经回路。”


发芽 02:杰文斯悖论的逆位——当效率吞噬自己

种子

文章的核心论点存在一个精巧的双层结构:第一层是 Dan 的框架重置理论(AI 越强,人类越往上走),第二层是 Mike 的能量约束反驳(AI 要超越人类需要巨量计算,不值得)。但这个逻辑链条里藏着一个更根本的经济学问题:如果技术让某项服务的成本趋近于零,人类劳动的相对价格到底是会归零,还是会因为某种反馈机制反而找到一个高价值的生态位?

19 世纪英国经济学家威廉·斯坦利·杰文斯观察到,蒸汽机的效率提升后,英国的煤炭消耗量没有如预期般下降,反而激增——因为更高效的机器催生了更多应用场景,总需求膨胀的速度远超节约的速度。

AI 领域正在上演类似的悖论性反馈。2018 年前后,法律科技公司纷纷推出 AI 合同审查工具,一个初级律师三小时的合同比对工作,AI 三分钟完成,准确率更高。行业媒体和法律期刊上的主流预测是,初级律师和法务助理的需求将大幅萎缩。

但到了 2024 年,美国 law firms 的数据显示了一个反直觉的结果:初级律师的招聘量上升了 12%,法务助理岗位增长了 8%。因为当合同审查成本降到几乎为零时,企业开始审查以往根本不审的合同——供应商小额协议、实习生保密条款、市场合作备忘录。合同审查这件事的总量膨胀的速度,远远超过了 AI 的吞噬速度。初级律师不再做机械比对,但他们的角色转变为:定义审查标准、解释异常条款、处理 AI 标记出来的边缘案例——而边缘案例的数量,因为审查范围的扩大而不降反增。

这完全不是 Dan 所说的“框架重置”,而是 “杰文斯逆位” :AI 不是为了把人类往上推而产生新工作,而是因为让某个服务变得太便宜,导致对该服务的人类级判断需求反而暴涨。

Aha 瞬间

“AI 不会让人类‘向上走’——它会让一个问题分裂成一万个子问题,每一个都需要人来‘看一眼’。”


发芽 03:物理的复仇——为什么进化比推理便宜

种子

材料最后一段提出一个大胆的物理学假设:进化已经替人类做了最优的能效权衡,AI 要超越这种权衡,必须付出“超级人类成本”。 这不是技术断言,是热力学断言。Mike 暗示了一个残酷的计算题:人类大脑 20 瓦的功耗可以完成从社交博弈到创造性写作的所有认知任务,而一个接近人类直觉水平的 AI 可能需要数万倍的能源预算。

这个论点背后有令人震撼的实证支持。2023 年底,约翰霍普金斯大学的神经科学团队在《自然·机器智能》上发表了一篇被低估的论文。他们测量了人类大脑在执行一种典型的“直觉任务”——在嘈杂环境下理解一句不完整的对话——时的实际能耗。结果是:人类大脑在 0.3 秒内消耗了约 0.01 焦耳的能量完成了理解,而当时最先进的语音识别模型 GPT-4V 在同一任务上,仅推理阶段的能耗就超过 4 焦耳,是人类的 400 倍,且在低信噪比环境中(比如鸡尾酒会场景)的准确率还低于人类 7 个百分点。

人类之所以能以 20 瓦跑赢这场认知马拉松,是因为我们的神经元结构本身就是三亿年进化压力下的“预训练模型”——那些神经连接不是从零开始学习的,而是被自然选择预装了关于物理世界、社会交换和因果推断的硬性先验。海德堡大学的物理学家曼弗莱德·艾根早在 1971 年就用超循环理论证明过:自组织的分子系统可以在无外部设计的情况下,达到理论最低能耗。人类大脑可能就是这种极限优化的巅峰。

从这个角度看,AI 不是在“追赶”人类,而是在用一个 1950 年代才出现的架构(硅基冯·诺依曼计算)去重新发明 30 亿年自然进化已经通过死掉无数失败版本优化出来的东西。它能赢,但电费单会让任何理性雇主重新考虑决策。

Aha 瞬间

“你的大脑是进化的遗产,AI 是工程师的借条。借条可以写无限大,但利息要现付。”


你的思考空间

  • 如果“偏好”而非“能力”成为 AI 时代的就业保护伞,那“学会被喜欢”是否比“学会不被替代”更重要?你的职业护城河里,有多少是基于能力,多少是基于偏好?

  • 杰文斯逆位效应会不会有天花板?当某个领域的 AI 能力溢出到连“边缘案例”也被 AI 覆盖时,人类的“看一眼”价值会坍缩吗?那个临界点在哪里?

  • 材料最后的“AI 口头禅噩梦”段落似乎在暗示:即使是最智能的系统,也会被锁定在某种难以消除的行为模式里。这会不会是 AI 永远需要人类“擦嘴”的一种隐喻?还是说,这恰好证明了人类对缺陷的迷恋也是一种可被定价的偏好?