微软如何为“计量智能”的世界做准备

原文：How Microsoft Is Building for a World of Metered Intelligence

本文题图

当我周一乘坐优步（Uber）前往微软年度 Build 大会时，我愉快地回忆起曾经只需5美元就能在旧金山四处跑的日子。那些日子早已远去。在激烈竞争的市场中，风险投资家们失去了提供无限资金的胃口，而优步在2019年上市前也需要展示一条盈利路径。

有迹象表明，大语言模型（LLM）的“5美元优步时代”也已结束。AI 实验室正在以每名用户数千美元的幅度补贴订阅服务，这不可能永远持续。今年，Anthropic、OpenAI 和 SpaceXAI 都将上市——就像七年前的优步一样，它们也需要认真审视自己的账本。就在大会召开前夕的6月1日，微软因对 GitHub Copilot 转而采用基于 Token 的计费方式而引发了众怒。一些用户表示，他们的月账单从 39美元飙升至3000美元以上。

微软非但没有在计费问题上退缩，反而利用这次加州大会的舞台，论证了在成本不断攀升的情况下，应如何更务实、更讲求实效地使用 AI。离开会场时，我意识到，微软是第一家真正正视这一现实的公司：智能可以像自来水一样即需即用，但具体能用多少，取决于你往计量表里投了多少硬币。

以下是这家公司愿景在实践中的样子，以及它可能告诉我们未来我们将如何为 AI 付费和定价。

表上表下的智能：一种产品思路

在开幕演讲中，首席执行官 萨提亚·纳德拉（Satya Nadella） 直截了当地回应了定价问题。他承诺“将无限的智能带给每一张办公桌和每一个家庭”（unmetered intelligence to every desk and every home），这是对 比尔·盖茨（Bill Gates） “让每一张办公桌上都有一台电脑”愿景的 AI 时代更新版。

微软CEO萨提亚·纳德拉承诺“将无限的智能带给每一张办公桌和每一个家庭”。（图片均由 Mike Taylor 提供）

体验这一愿景最切实的方式是 RTX Spark 笔记本，这是微软与英伟达（Nvidia）合作设计的一款面向 AI 工作负载的新型笔记本电脑。该设备能够在本地运行一个具有 1280亿参数 的中等规模模型（前沿模型通常在万亿参数级别），这样开发者在无需支付一分钱 Token 费用的情况下，就能完成大量工作。微软正在利用这样一个事实：像 Kimi-K2.6 这样的领先开源模型拥有万亿参数，体型过大，无法装入大多数笔记本电脑。微软押注于那些对预算敏感的编程人员可能不介意在技术上落后一两年，使用一个更小的模型。这款设备将于秋季发布。

RTX Spark 笔记本遵循了早先的功能发布逻辑，表明微软希望通过成为你可以使用任何模型、智能体或工具框架的一站式平台，来降低客户的切换成本。这款笔记本配备了一个重新打造的智能终端应用，允许你运行任何编程智能体工具框架，并采用了 Mac 生态系统中流行的终端命令，让开发者更容易迁移过来。

即便是在本次大会上同时发布的 GitHub Copilot 桌面应用，也让你可以在 OpenAI 构建的模型、Anthropic 构建的模型以及在你设备上运行的本地开源模型之间轻松切换。

在被问及智能体编程的可负担性问题时，GitHub 首席产品官 马里奥·罗德里格斯（Mario Rodriguez） 提到了 GitHub Copilot 中的自动模型路由功能，该功能可以将不太复杂的任务委派给更便宜的模型。在我对 GitHub 首席运营官 凯尔·戴格尔（Kyle Daigle） 的采访中，他感叹开发者倾向于选择“当天的、当周的，甚至是当小时的流行模型”，即便手头的任务根本不值得动用那种级别的计算能力。一个人很可能不会为了那最后一步而手动切换到更便宜的模型，“但工具可以”。我也 长期以来一直主张，并非每项任务都需要动用前沿模型。

我有种感觉，这个团队在开发模型路由功能时，首先是为了解决他们自己面临的、眼下所有人都在面对的同一个问题——微软自己也在 取消 Claude Code 的许可 以削减成本。

像自动模型路由这样的功能表明，微软理解失控的成本对那些需要更严格控制支出的企业造成了怎样的伤害。AI 实验室不会让大公司购买那些获得高额补贴的个人“Max”套餐，因此大公司最终只能为他们消耗的每一个 Token 支付全额费用。据传，有一家没有妥善监控使用情况的公司，在单月内仅在 Claude 的 Token 上就花掉了令人瞠目结舌的 5亿美元。

这并非当天的唯一新闻：由 穆斯塔法·苏莱曼（Mustafa Suleyman） 领导的微软研究院发布了 一组新的（更便宜的）小型模型，涵盖图像、语音、转录、编程和推理。

通过模型优化来解决成本问题

但是，当你为了节省成本而不使用最新模型时，犯下代价高昂错误的风险也会更高。有一个答案是我在为期一天的活动中听到了超过一百次的短语：“爬山法”（hill climbing）。其核心理念是，你可以为一项任务设定一个评估指标——例如，一个检查你的 AI 客服机器人是否对常见问题给出了正确答案的查询——然后不断自动测试新的指令，直到那个较小的模型获得一个可接受的分数。

这就是诸如 DSPy 中的 GEPA、安德烈·卡帕斯（Andrej Karpathy） 的 autoresearch，以及 Codex 的 /goal 功能等优化框架背后的核心论点。通过这种方式，你可以用一个聪明的模型来训练一个不那么聪明的模型，这个过程被称为“蒸馏”（distillation），从而在保持可靠性的同时降低成本。在大会现场录制的一次播客采访中，纳德拉将用于“爬山法”的私有评估基准称为一家公司能够拥有的 “最重要的知识产权”。

即使使用前沿模型，错误仍然在所难免，因此微软也聚焦于安全。为了让 AI 不那么容易犯下代价高昂的错误，该公司发布了 MXC，即微软执行容器（Microsoft eXection Containers），这是一个操作系统级的沙箱，旨在安全地容纳不受信任的代码、插件和自主 AI 智能体。OpenClaw 的创建者 彼得·斯坦伯格（Peter Steinberger） 出人意料地现身舞台，参与了一个演示：一个团队指令他们的智能体删除电脑上的所有文件，但这一行为最终被 IT 部门通过 MXC 设置的保护措施所阻止。这传达出的信息是：“OpenClaw 现在可以安全用于工作了。”

为了证明这一点，微软推出了 Autopilot，这是其对托管式、长时间运行的智能体的解决方案，其首批（众多智能体中的第一个）智能体是 Scout，其灵感来源于内部测试和实验。Autopilot 能够运行诸如 OpenClaw 和 Hermes Agent 等智能体框架，但它托管在安全的微软环境中，并能访问你文档和应用程序中的所有上下文。高管们还提到了他们的多智能体代码审查系统 MDash。据纳德拉称，MDash 捕捉到了连 Anthropic 的 Mythos 模型都未能发现的 Bug。

硅谷所缺失的东西

尽管许多企业客户都在努力管理成本，或苦于难以衡量投资回报率，但对于那些深度痴迷 AI 的开发者来说，对最贵、性能最强的前沿模型的渴求将永远存在。而为了满足他们，我们需要数据中心。纳德拉表示，公司将继续 保持其快速的建设步伐，但他也比我见过的任何其他行业领袖更好地承认了社会为此付出的代价。

Tech Insider 报道称，2026年美国已宣布的数据中心容量中，有一半 已被取消或延迟，部分原因是对电价上涨和用水量的担忧。纳德拉将继续建设的行为，描绘成科技行业需要靠承诺来赢得许可的事：承诺将电力和水资源的消耗限制在可控范围内，并为当地居民提供就业和机会。一场反对数据中心的小型抗议活动在大会入口处形成，我一度抬头，看见一架飞机拖着一面旗帜，上面写着同样的反数据中心信息。

抗议者在会场外反对数据中心建设。

微软 Build 大会通常在 西雅图 举行，而此次在旧金山举办，使得那些崇尚 “Token 极大化” 的、痴迷 AI 的工程师，与那些极其务实、正努力让这项技术在其公司中发挥作用的企业领导者之间，形成了鲜明对比。那些薪酬优渥、每月免费消耗 数千亿个 Token 的 AI 研究员，与一名在西雅图为一家企业医疗保健公司工作的初级 IT 顾问，并不生活在同一个世界里——而后者对微软的产品深信不疑。

在大会结束，我乘坐优步返回机场时，读到一则新闻，讲的是优步如何将其工程师的月度 Token 预算 限制在 一个很合理的 1500美元。如果这笔钱大约占一名普通优步工程师薪资的10%，那么期望通过 AI 将生产力提高10倍的管理者们，将通过更务实的用度来弥合这个成本差距。

核心启示：AI 行业正从“烧钱换规模”的补贴时代，不可逆转地走向“精打细算”的计量智能时代。微软的战略清晰地表明，未来的竞争优势不仅在于拥有最强大的模型，更在于通过本地化运行、智能任务路由和模型蒸馏优化，系统性地管理智能的成本，使其真正可落地、可持续。

How Microsoft Is Building for a World of Metered Intelligence 的发芽报告

材料核心

本文记录了微软在2026年Build大会上对AI成本危机的系统性回应。面对从“10美元无限乘”式的补贴时代转向按token计费的现实，微软没有单纯砍预算，而是通过本地模型卸载、按任务难度自动路由模型、以及爬坡优化制度，构建了一套分层、节流、可审计的“计量智能”产品哲学。

发芽 01：从“选最好”到“选刚好”——模型分层怎样倒逼工程化能力

种子

材料提到，GitHub COO Kyle Daigle 发现开发者倾向于选择“当天、当周甚至当小时最火的模型”，即使任务根本不值得那个算力。这实际上暴露了一个尴尬时刻：当模型能力不再是瓶颈，判断“什么任务配什么模型”反而成了新的核心竞争力。

这就像20世纪初电力刚进入工厂时，老板们只知道拉一条总输电线，所有机器一起开动，直到电费单让他们学会了按工段、按时段分配电力负载。斯坦福历史学家 Paul David 的研究表明，电力普及后美国制造业的生产率反而停滞了近30年，不是因为电力不够，而是因为工厂必须重新设计整条流水线来适配分散式电力驱动——这就是著名的 “生产力悖论”。

微软现在的模型路由、本地模型卸载、爬坡优化，本质上是在做同一件事：不是所有人都配得起万亿参数模型二十四小时待命，但可以用制度设计和工具链，让计算资源像水流一样，聪明的流到需要的地方，剩下的存起来或关掉。这是一个有方法论支撑的工程化拐点。

Aha 瞬间

“AI时代的‘电费单’教会我们的第一课，不是省着用算力，而是学会判断——哪一刻，你真的需要让算法替你思考。”

发芽 02：算力充裕的幻觉——为什么即使前沿模型变成“无限”，物理约束也不会消失

种子

萨提亚·纳德拉在演讲中说，大公司继续疯狂建设数据中心，但前提是必须向当地社区“申请许可”——承诺把电力、水资源消耗控制在可控范围内。文章同时提到，2026年美国一半的计划数据中心容量已被取消或推迟，原因就是电价和水资源压力。

这让人想起20世纪70年代的“核能复兴”幻灭。1954年，美国原子能委员会主席 Lewis Strauss 豪言核能将“too cheap to meter”——太便宜以至于不用计费。但一直到70年代，Three Mile Island 事故、冷却水污染、核废料存放等问题涌现，核电站的扩张戛然而止。不是因为无法分裂原子，而是没人能承担起冷却它的代价。

AI数据中心的现况惊人地相似：算力（核分裂）已经不是最大瓶颈，冷却算力（散热和水资源）才是。纳德拉的演讲实际上是把技术问题重新翻译成了政治经济学问题——一个社区如果不愿意负担你那座数据中心的用水量，你的“无限智能”就是空话。科技行业历史上第一次意识到，智力是一种能被生产的商品，但它生产的先决条件是物理世界里的水、电、土地，还有当地居民的耐心。

Aha 瞬间

“当算力无限的那一天真的到来，最先拒绝它继续膨胀的，不是技术瓶颈，而是当地水管里变少的水。”

发芽 03：“补贴结束”的Uber化——为什么计量智能才是成熟市场的正常形态

种子

作者用Uber从5美元随便去到按里程计价的转变，比喻当前AI订阅制向token计费制的转型。但Uber的转向只是表象，真正深刻的变化是市场从“捕获用户心智”转向“捕获可审计的单位价值”。

可以参考哈佛商学院教授 Clayton Christensen 的“整合-解构”循环理论。在行业初期，为了快速铺开，公司往往倾向于整合式补贴——就像Uber在2014年承担每单高达58%的实际成本。但在市场定型后，必然走向解构，把成本掰开来、模块化、可计量。GitHub Copilot从固定月费($39)转向按token计费，正是这个解构的缩影。

值得注意的是，解构后的计价方式暴露了此前被埋藏的价值不平等。Uber解构后，穷人通勤和富人跨城是两种价格；Copilot解构后，一个低效能开发者如果依赖旧习惯无节制调用最贵模型，也可能面临从$39到$3000的“定价休克”。这就是为什么模型路由、爬坡优化等工具的本质不只是省钱，而是防止价值被无意识的消耗。

Aha 瞬间

“补贴时代的免费，是为了蒙上你的眼睛。计量时代的账单，是在教你重新问一句：‘这次思考真的值这么多钱吗？’”

你的思考空间

如果一个企业的主要AI支出在“无意识调用”上，那么模型路由、爬坡优化这套工具链能省下的到底是算力，还是决策疲劳？
“半个亿美金的Claude token月账单”暴露出的不只是使用问题，还可能是组织内部缺乏AI审计的制度空白——企业的AI支出需要什么样的首席AI成本官？
纳德拉将数据中心的“许可”和社区就业、水电承诺绑定，这种物理层面的“可审计性”未来是否会演变为AI模型必须披露的ESG指标？
当所有大厂都在推模型路由和本地推理，未来会不会出现“模型无关应用层”的黄金时代，就像电网让电器厂商不再需要考虑发电站？