微软如何为“计量智能”的世界做准备
原文:How Microsoft Is Building for a World of Metered Intelligence
本周一,在我乘 Uber 前往微软年度 Build 大会的路上,我怀念起了当年在旧金山花 5 美元就能去到任何地方的日子。那些日子早已远去。在一个竞争极其残酷的市场中,风险投资家们失去了提供无限资金的兴趣,而 Uber 需要在 2019 年上市前展示出一条通往盈利的道路。
有迹象表明,大语言模型的“5 美元 Uber 时代”现在也结束了。各大 AI 实验室正在以数千美元的高额成本补贴用户订阅,这种情况不可能永远持续下去。今年,Anthropic、OpenAI 和 SpaceXAI 都将上市——像七年前的 Uber 一样,它们也需要仔细审视自己的账本。6 月 1 日,就在此次大会开幕的前夜,微软因在 GitHub Copilot 上转向基于 Token 的计费模式而引发了众怒。一些用户表示,他们的账单从每月 39 美元飙升到了 3000 美元以上。
微软并没有在计费问题上退缩,而是利用这次在加州举行的会议,阐述了在面对不断上升的成本时,如何更务实地使用 AI。离开会场时,我有个感受:在这样一个智能像自来水一样随时可用,但却受制于你得投入多少硬币的世界里,微软是第一家认真对待此问题的公司。以下是该公司的愿景在实践中的样子,以及它对我们未来如何为 AI 付费和定价的启示。
表内和表外的智能:一种产品策略
在开幕演讲中,CEO 萨提亚·纳德拉(Satya Nadella)直面了定价问题。他承诺将提供“到每个桌面、每个家庭的不计量的智能”,这是对比尔·盖茨(Bill Gates)“每个桌面上都有一台电脑”愿景的 AI 时代更新。
微软CEO萨提亚·纳德拉承诺将提供“到每个桌面、每个家庭的不计量的智能”。(所有图片均由Mike Taylor提供)
要体验这一愿景,最实在的方式是通过 RTX Spark,这是微软与英伟达(Nvidia)合作设计的一款面向 AI 工作负载的新型笔记本电脑。该设备能在本地运行一个 1280 亿参数的中等规模模型(前沿模型的参数量已达万亿级别),这样开发者就可以在不支付一分钱 Token 费的情况下完成大量工作。微软正在利用这样一个事实:像 Kimi-K2.6 这样的万亿参数级领先开源模型太大了,无法装进大多数笔记本电脑,并押注那些对预算敏感的开发者或许不介意落后前沿一两年,而去使用更小的模型。这款设备将在秋季发布。
RTX Spark 笔记本电脑紧随早期的功能公告发布,这些公告表明,微软希望通过成为你可以使用任何模型、智能体或工具链的地方,来降低客户的转换成本。这款笔记本内置了一个重建的智能终端应用,可以运行任何编码智能体工具链,并采用了 Mac 生态系统中流行的终端命令,使开发者更容易转移过来。
即便是在大会上同期发布的 GitHub Copilot 桌面应用,也能让你在 OpenAI 构建的、Anthropic 构建的,以及在你设备上运行的本地开源模型之间轻松切换服务商。
当被问及智能体编码的可负担性时,GitHub 首席产品官马里奥·罗德里格斯(Mario Rodriguez)提到了 GitHub Copilot 中的自动模型路由功能,该功能可以将不太复杂的任务委派给更便宜的模型。在我对 GitHub 首席运营官凯尔·戴格尔(Kyle Daigle)的采访中,他感叹开发者倾向于选择“当日、当周,甚至当小时的流行模型”,即使任务根本不值得用那种算力。一个人可能不会在最后一步手动切换到一个更便宜的模型,“但工具可以”。我本人也长期认为,并非每个任务都需要由前沿模型来完成。
我感觉这个团队是在面临了其他所有人现在都面临的同样问题后,为他们自己构建了这个模型路由功能——微软自身也一直在取消 Claude Code 的授权许可以降低开销。
像自动模型路由这样的功能表明,微软理解失控的成本会如何损害那些需要更严格支出控制的企业。AI 实验室不会让大公司购买享受高额补贴的个人“Max”计划,因此大公司最终要为他们烧掉的每一个 Token 支付全额费用。据传,一家未能妥善监控使用情况的公司,在一个月内就烧掉了惊人的 5 亿美元 Claude Token。
这并非当日的唯一新闻:由穆斯塔法·苏莱曼(Mustafa Suleyman)领导的微软研究院发布了一套新的(也更便宜的)小型模型,涵盖图像、语音、转录、编码和推理。
通过模型优化来应对成本
但是当你为了节省成本而不使用最新模型时,犯下代价高昂的错误的风险也更高了。有一个答案是我在为期一天的活动中听到超过 100 遍的短语:“梯度攀登”。这个想法是指,你可以为一个任务设定一个评估指标——例如,一个检查点,用于确认你的 AI 客服机器人针对常见问题给出的答案是否正确——然后不断自动测试新的指令,直到那个更小的模型获得可接受的分数。
这便是诸如 DSPy 中的 GEPA、Andrej Karpathy 的 autoresearch,以及 Codex 的 /goal 功能等优化框架背后的核心理念。通过这种方式,你可以用一个聪明的模型来训练一个较笨的模型,这个过程被称为“蒸馏”,从而在降低成本的同时保持可靠性。在大会期间录制的一次播客节目中,纳德拉将为“梯度攀登”所用的私有评估基准称为一家公司所能拥有的“最伟大的知识产权”。
错误仍然会发生,即使是使用前沿模型,因此微软同样关注安全性。为了让 AI 不那么容易犯下代价高昂的错误,该公司发布了 MXC——即 Microsoft eXection Containers(微软执行容器),这是一种操作系统级沙箱,旨在安全地遏制不受信任的代码、插件和自主 AI 智能体。在一次出人意料的亮相中,OpenClaw 的创建者彼得·斯坦伯格(Peter Steinberger)出现在一个演示舞台上,演示中,一个团队指令他们的智能体删除电脑上的所有文件,但最终被他们的 IT 部门通过 MXC 设置的保护措施所阻止。传递出的信息是:“OpenClaw 如今可以安全用于工作了。”
为了证明这一点,微软推出了 Autopilot,这是其对托管式长运行智能体的尝试,首个(也是众多智能体中的第一个)智能体 Scout,灵感来自内部测试和实验。Autopilot 运行像 OpenClaw 和 Hermes Agent 这样的智能体框架,但它托管在一个安全的微软环境中,可以访问你文档和应用程序中的所有上下文。高管们还提到了 MDash,他们的多智能体代码审查系统。据纳德拉称,该系统甚至发现了 Anthropic 的 Mythos 模型遗漏的错误。
硅谷所忽视的
虽然许多企业客户正在努力管理成本或难以衡量投资回报率,但在那些痴迷于 AI 的开发者中,对最昂贵、性能最强的前沿模型的渴求始终存在。而对于这些,我们需要数据中心。纳德拉表示,公司将继续保持其快速的建设步伐,但他也比我在该领域见过的任何领导者都更好地承认了其社会成本。
Tech Insider 报道称,2026 年美国已宣布的数据中心容量中,有一半已被取消或推迟,部分原因是对电价上涨和用水量的担忧。纳德拉将持续建设视为一种科技行业需要通过承诺来获取许可的事情,承诺的内容包括将电力和水资源的使用限制在可控范围内,并为当地居民提供就业机会。一场小规模的反数据中心抗议活动在大会入口处形成,有次我抬头一看,还看到一架飞机拖着一面横幅,上面写着同样的反数据中心标语。
抗议者在会场外制作的反对数据中心建设的标语牌。
微软 Build 大会通常在举办,而在旧金山举办则形成了一种鲜明对比:一边是疯狂消耗 Token 的、AI 痴迷的工程师,另一边是正在努力让这项技术在公司落地的、极其务实的企业领导者。拿着高薪、每月能免费消耗数千亿 Token 的 AI 研究人员,与西雅图一家企业医疗保健公司的初级 IT 顾问并不活在同一个世界里——而那位顾问对微软的产品信赖有加。
在大会结束后,我乘 Uber 返回机场的路上,读到一篇报道,讲的是 Uber 如何将其工程师的 Token 预算限制在每月 1500 美元的合理水平。如果这大约是 Uber 典型工程师薪资的 10%,那么期望能将生产力提高 10 倍的管理者们,将通过更务实的使用方式来弥补其中的差价。
核心启示:微软正通过将 AI 智能分层计价——从本地运行的中等模型到按需调用的云端前沿模型——来回应当前“补贴式 AI”模式正在终结的现实。这揭示了未来 AI 应用的关键逻辑:不是所有任务都需要最强大的智能,而企业和开发者必须学会在智能的“效用”和“成本”之间进行有意识的权衡。

“How Microsoft Is Building for a World of Metered Intelligence” 的发芽报告
材料核心
Mike Taylor 指出 AI 行业的“烧钱补贴换增长”时代正在终结,正如当年的 Uber。微软在 Build 大会上通过“本地模型 + 按需云智能”的产品矩阵、“爬山法”模型优化以及成本控制工具,率先描绘了一个智能像水电一样被“计量”使用的务实未来图景。
发芽 01:从“烧钱换规模”到“算账过生活”——被重复的历史剧本
种子
微软的转型策略,本质上是把科技行业“Growth at all costs”的叙事,重置为“Sustainable utility”的叙事——这和 2019 年 Uber 被迫 IPO 时的转向逻辑完全相同,但这次主角变成了“智能”本身。
这一切曾在电信行业反复上演:1990年代末的“带宽泡沫”,以及中国2010年代短视频平台为抢用户的“流量免费,受伤的总是投资人”阶段。每一次,当一种资源被认为是“无限”且对战略防御至关重要时,资本就会疯狂涌入,直到有人翻开账本。微软的精明之处在于,它似乎预判了这个阶段的到来——不是因为它不想烧钱,而是因为它服务的大量企业客户早已开始抱怨账单上的“惊悚数字”(正如文中提到的那家一个月烧掉5亿美金买 Claude Token 的公司)。与其让客户在“AI焦虑”和“成本焦虑”中二选一,不如主动提供一套“分流系统”。
回溯历史,19世纪末标准石油公司对原油副产品的利用逻辑与此异曲同工。当时煤油是主产品,汽油是危险废物。随着内燃机兴起,洛克菲勒没有固守煤油,而是迅速将“废物”汽油变成核心利润来源。在 AI 时代,微软正在做类似的事:它承认并非所有任务都需要“超纯航空燃油”(前沿大模型),并设计了一套方法,让那些原本被视为“次级”的小模型(如蒸馏后的本地模型)产生巨大的实用价值,从而降低了整个系统对“昂贵原油”的焦虑。
Aha 瞬间
“当‘智能’从稀缺品沦为计量品,最大的利润就不再来自提供‘最聪明’的大脑,而是来自经营‘最聪明’的电网。”
发芽 02:“爬山法”与“安迪-比尔定律”的幽灵
种子
微软反复强调的“爬山法”(Hill Climbing)不仅仅是一种模型微调技术,它暴露了大模型时代一个残酷且经典的商业循环——任何硬件或算力的进步,都会被膨胀的应用需求吞噬掉,最终不得不通过软件层面的优化来“挤出”成本优势。
这就是著名的“安迪-比尔定律”(Andy and Bill’s Law)的变体。原意是:英特尔(Andy Grove)提升的硬件性能,很快就会被微软(Bill Gates)更新的操作系统消耗掉。但今天,“安迪”变成了英伟达和台积电不断飙升的算力,“比尔”则变成了无限贪婪的通才大模型。当 OpenAI 等公司通过堆积万卡集群(“安迪”的速度)把模型能力推到万亿参数时,成本爆炸让落地变得不可能;于是“比尔”开始收缩——微软通过“爬山法”,用大模型作为“教师”去训练更小、更专业、更便宜的“学生”模型,并在特定的私有评估集上不断“爬山”优化,直到效果逼近大模型的某个可接受阈值。
这不仅是在节省Token费,这是在重新夺回软件定义硬件效率的主导权。微软研究所推出的那一系列“更便宜”的小模型,就是在宣告:与其把所有钱都给数据中心和芯片厂,不如让算法在受限的硬件上“戴着镣铐跳舞”。这比30年前的操作系统优化更隐蔽,因为它涉及到让一个智能体去训练另一个智能体,从而在单位算力上压榨出更高的人类等效价值。
Aha 瞬间
“既然烧不起最贵的智商,那就在便宜的智商上反复‘爬山’。只要评估指标足够精准,一个微调后的‘傻’模型,就是企业眼里最完美的‘聪明’员工。”
发芽 03:为“普惠智能”铺设的信任轨道与物理牢笼
种子
文章后半部分关于 MXC 沙箱、Autopilot 和“可安全用于办公”的远景,本质上是微软在为“计量智能”的大规模普及铺设信任的物理边界——这不仅仅是技术问题,更是社会学问题。当智能变得便宜且自主时,它就成了必须被“监管”的基础设施。
媒体常把重点放在 MXC 如何阻止 AI 删除文件,但更深层的意义在于,这拷贝了人类社会经济史上每一次“高风险技术”的普及路径。就像电梯的普及不仅靠电动机,更靠伊莱沙·奥的斯在1854年做的那个“安全钳”公开实验——他站在高高悬挂的平台上,当众让人砍断唯一缆绳,平台没有坠落,这才开启了摩天大楼时代。如果电梯没有那一套自动防坠落的物理机制,人类永远不会容忍把自己装在盒子里拉上几百米高空。
同理,AI Agent如果不被封在一个OS级的“安全钳”里,大企业绝不会让它在真实数据层里“自主奔跑”。微软通过 MXC 和 MDash 这样的架构,实际上在回答一个原始恐惧:“为什么我们要相信一个计费的、不受控的大脑不会毁了我们?” 在这个框架下,“计量”不仅是成本问题,更是新的责任契约——既然我花钱买你的智能,你就必须在物理隔离中运行,产生的错误,系统必须基于“爬山法”的评估预先阻绝。这种把信任基础设施化的做法,才是微软与那些只卖API的竞品拉开代差的地方。
Aha 瞬间
“让一个智能体‘安全地工作’,远比让它‘聪明地工作’更难。安全沙箱不是限制智能的牢笼,而是人类向非人类智慧交付自主权时,唯一的握手协议。”
你的思考空间
- 当 AI 进入“计量付费”时代,对于个人创作者和小型团队来说,这种“砍预算”的生存焦虑是否会反向催生一种新的“模型极简主义”创作美学,就像早期计算机受限于几KB内存逼出的程序优化艺术?
- 如果企业都将私有评估集视为“爬山的顶峰”,我们是否会看到一个个专业能力极强、但无法突破既定评价体系的“回音壁式”AI?这种极致降本是否会以牺牲“跳出框框”的创造力为代价?
- 沙箱机制允许 Agent 在受限环境下运行,但如果未来的核心竞争优势完全建立在“跨越不同保护域进行数据关联”之上,这种物理隔离是否会成为扼杀终极创新的牢笼?
- 从“人人都有计算机”到“人人都有不受限制的智能”,微软的愿景是否隐含着一个根本性矛盾:当智能被重新定义为一种需要分配、需要保护、需要爬坡优化的“稀缺品”时,它还能被称作“普惠”吗?