Token Tightening:AI 进入分配时代

原文:https://every.to/context-window/token-tightening


AI 已经进入了它的分配时代:企业开始追问,谁能接触到最强大的模型,这些模型该用来做什么,以及什么时候才值得为它付出成本。今天,技术咨询负责人 Mike Taylor 提出,token 预算可能会越来越像交易投资组合——谁能证明自己能带来最高回报,谁就能拿到最大的计算资源。另一篇文章里,运营主管 Arielle Shipper 对自己的 AI 使用习惯进行了一次压力测试;增长负责人 Austin Tedesco 分享了自己如何用 SpiralCodex 写作;高级设计师 Daniel Rodrigues 则追踪了传统手作设计在社交媒体上的复兴。


信号

ROI 开始倒逼 token 消耗

就在几个月前,重度补贴的 AI 套餐和企业自上而下疯狂推动员工熟悉新技术的做法,还催生了一股“Tokenmaxing”(极致 token 消耗)的风气——用员工用掉了多少 token 来衡量 AI 采用的程度。

但那个阶段 似乎已经结束了。前沿实验室的定价模式正在变化,聊天机器人正在被长时间运行的 Agent 取代,同时像 Fable 这类强大又极其昂贵的新模型接连登场,几股力量汇聚在一起,让企业的 AI 账单急剧膨胀,却往往拿不出切实的成果。Uber、Meta、Amazon 和 Walmart 都已经开始 对员工的 AI 使用设置上限

这些公司仍然会在 AI 上投入巨额资金。但它们在开始更战略性——或者说更具限制性地——思考一个问题:怎样才能把那些性能强大、极其消耗 token 的模型和工作流程,交到最能将投资回报率(ROI)最大化的人手上。

一个方案是给工程师每月拨付其薪水一定比例的 tokene 额度。技术咨询负责人 Mike Taylor 认为,金融行业可能提供了一个范本:能力强的工程师将拿到数倍于薪水的 tokene 预算来自主管理,就像金融交易员管理着远大于自己年薪的投资组合一样。要发挥出当前模型的全部价值,已经需要真正的资本投入——最近,Cora 的总经理 Kieran Klaassen 就在短短几天内花掉了 2,000 美元的 Cursor 额度,而随着模型继续进步,这个数字以后看起来只会微不足道。

And this was before Fable briefly graced us with its presence. (Screenshot courtesy of Kieran Klaassen.) 这还发生在 Fable 短暂亮相之前。(截图由 Kieran Klaassen 提供)

Mike 预测,在这种体系下,token 的分配和使用将受到更严格的控制:“就像交易一样,会有风险限额、审计机制,某些规模的‘赌注’必须经过审批。”更宽泛地说,我们很可能会进入这样一个世界:谁能拿到 tokene 预算,以及能用它做什么,都会受到更多限制。能够证明自己 ROI 的顶尖工程师会从中受益,管理者也一样。“你是会把 token 预算给一个本来就喜欢手写代码的个人贡献者(IC),还是给一个已经习惯于调度相当于自己薪资五倍、十倍资源的管理者?” Mike 反问道。

在这种近未来的图景中,实习生也许只能用 Composer 2.5,大部分员工使用 Codex 或同级别工具,而 Fable 级别的模型只留给最顶尖的工程师。把前沿模型的入口交给少数精英以外的任何人,涉及的金钱代价实在太大了。


讨论

“我们能不能稍微降级一下模型,却仍然获得同样的结果?”—— Joel Neeb,软件公司 8x8 的首席转型官,在 《Wired》上的发言

即便是像 8x8 这样激进拥抱 AI 的公司,也在尝试控制 token 花费。《Wired》报道称,8x8 鼓励全部 1,800 名全职员工使用 Claude,并通过内部仪表板追踪使用情况。但随着 Opus 4.8 推高了支出——它的价格 比 Anthropic 今年早些时候发布的某个模型贵了 1.7 倍——公司已经在讨论,员工需要先证明旧模型无法胜任,才能获得最新模型的访问权限。


数据点

6.6

这是运营主管 Arielle Shipper 在 Every 的 AI 采用八级阶梯上,根据她为自己设置的每周 Codex 评估得出的当前所处层级。她之前的基线是 5.5,也就是已经以 Agent 为先,但还没有到同时协调多个 Agent 或多个工作流的程度。

Arielle 用 Codex 来管理那些过去需要大量手动上下文切换的工作,从每周同步更新到 Ramp 里的信用卡配置,涵盖方方面面。在她让 Codex 评估了自己的 AI 使用情况之后,她把这些建议变成了一项每周五自动运行的例行任务。它会回顾她过去一周的会话,告诉她现在处在阶梯上的哪个位置,并给出可以接下来尝试的具体策略。其中一个被坚持下来的策略是:Arielle 使用了 /LFG,复合工程中那种将目标经过计划、执行、回顾和改进的 Agent 工作流,来梳理自己的每周运营更新系统。

你也可以自己试试。把下面的提示粘贴到 Codex 中:

Based on everything you know about me, including memories, tools and skills installed, and past session history, what level would you say I’m at on this guide to AI adoption levels? https://every.to/guides/the-eight-levels-of-ai-adoption

然后再问:

What would take me to [the next level up]? How can I use you more effectively? What opportunities did I miss?

偷师这个工作流

用 AI 写作

对于某些类型的写作,比如第二季度末的冲刺策略文档,增长负责人 Austin Tedesco 很乐意让一个被良好驾驭的 Agent 尽可能多地生成文本。

而对于更个人化的项目,比如他每周发布的 Substack 美食通讯,他的做法就不一样了。他设置了 OpenClaw 和 Codex,让它们充当思考伙伴和编辑,帮助他存储、组织和提炼自己的思考。以下是他用 AI 写作的工作流:

  1. 创建一个常驻写作文件。 Austin 的文件存放在 Proof(Every 的 Agent 原生文档编辑器)中,包含三个部分:“想法库”,用来放粗略的想法;“大纲”,让想法开始成形;“草稿”,从大纲充实为一篇完整的文章。
  2. 收集半成形的想法。 当一个想法冒出来时,Austin 会通过短信把它发给自己的 OpenClaw,哪怕这个想法还乱糟糟的、欠火候。因为这个 Agent 连接了 Every 的 AI 写作助手 Spiral(它训练过 Austin 的语气和风格),它能将粗糙的想法提炼成符合他写作风格的句子。他还把它连到了自己的 Substack 存档上,这样它就能从以前的文章中拉出相关上下文,例如他之前是否提过某家餐厅,或者他对某个话题的看法有没有发生过变化。
  3. 一口气写出草稿。 等 Austin 打开笔记本电脑的时候,他的写作文件里已经装满了这一整周的想法,并整理成了详细的大纲。然后他在 Codex 的应用内浏览器中打开那份 Proof 文档,此时已拥有足够的上下文,可以坐下来一次写出一篇能直接发布的文章。
  4. Monologue 打破写作卡壳。 虽然 Codex 负责想法的收集、帮助处理上下文和大纲,但 Austin 大部分时候自己写文章。不过如果碰上写不下去的情况,他会打开 Monologue(Every 的语音听写应用),通过脑暴的方式强行推进。在这些语音笔记中,他常常扮演编辑的角色,清楚地说出草稿在哪里、怎么偏离了他真正想表达的东西。然后,他让 Codex 把这些想法整理干净,添加过渡性语句,再整合进文章里。

“很多写作者会说,‘那是 AI 的垃圾’,”他说,“但那都是我的原话。用 Monologue 来解决写作卡壳效果很好,用来打磨大纲更是如此。”

本周试试看:

  • 选一个你定期在做的写作项目,创建一个包含三部分的文档:想法库、大纲、草稿。
  • 给模型提供足够的上下文,让它理解你的写作方式。可以用 Spiral 从你之前的作品中生成一份风格指南,或者把几篇有代表性的样本粘贴到 Codex 或 Claude 中,然后提问:“根据这些例子创建一份简短的风格指南。捕捉我的语气、结构、句子长度、常用手法以及我回避的东西。”
  • 给它一个小型档案:过去文章中可能相关的链接、摘录或标题。接着追问:“当我发送新的半成形想法时,标记出它们与我过去写过的东西有哪些关联,我的思考在哪些地方发生了变化,以及我可能在什么地方开始重复自己。”
  • 开始向它投喂零碎的笔记、链接和语音转录稿。让它把内容整理到三个分区里,更新大纲,并用这些材料让你自己写出草稿,或让模型给出初稿。

Every 内部观察

手工创作 vs Agent 生成

高级设计师 Daniel Rodrigues 注意到,Instagram 推送给他的设计内容正出现一种分化。一类帖子展示的是用一系列复杂的 AI 工具和工作流创作的设计;而另一类内容则聚焦于手绘、插画或其他亲手制作的视觉作品。

在线内容的创作者和消费者似乎都在选边站队:要么喜欢那些展示最前沿 AI 设计的内容,要么对所有 AI 生成的东西都心存抵触。

这不仅仅发生在设计领域。我的 LinkedIn 信息流就像一场拔河比赛,一边是被 AI 深度洗脑的写作者,另一边是那些高调宣称永远不用 AI 的人——尽管其中有多少可信度值得商榷。就我个人的感受而言,如今各种风格的文章读起来,要么越来越像是 Claude 写的,要么就是刻意追求怪诞和个人化。在工程领域,也存在 类似的动态,一边是 Agent 编排的工作流,另一边是回归“手工打造”的代码。

Daniel 同时被 AI 极大主义和亲手制作的物理作品所吸引。Midjourney、Unicorn Studio 和 Claude Code 等 AI 工具极大扩展了他的能力。“我感觉自己前所未有的强大,”他说。但当人们在 Zoom 会议中夸赞他墙上那些装裱好的图片时——其中很多是他借助 AI 创作的——他却觉得把全部功劳归于自己有些奇怪。这些作品感觉更像是策展,而非创作——也正因为如此,他才产生了拿起画笔、去创作完全由自己负责的作品的渴望。

An illustrator and artist documents his painting process for his followers. (Screenshot courtesy of yay_abe.) 一位插画师兼艺术家向粉丝记录自己的绘画过程。(截图由 yay_abe 提供)

A painter gives her followers a tutorial on how to paint komorebi, the Japanese word for sunlight filtering through leaves. (Screenshot courtesy of komorebibymia.) 一位画家为粉丝提供如何画“komorebi”(日语,意为阳光透过树叶洒落)的教程。(截图由 komorebibymia 提供)


核心启示:AI 的野蛮扩张期正在让位于一个更冷静的分配时代,token 预算会不会变成一种需要证明回报才能获得的资源,或许决定了下一个阶段谁能从 AI 中获得最大的杠杆——以及谁会被排除在外。

原文配图

Token Tightening 的发芽报告

材料核心

企业 AI 应用正从“tokenmaxxing”(以用量论英雄)的粗放扩张期,迅速转入以投资回报率为核心的“token 紧缩”时代。公司开始像管理金融交易组合一样管理计算资源预算,只有能证明产出的人才能获得顶级模型的使用权。


发芽 01:深度解读 — 为什么“计算资源”必然会变成“公司政治”

种子

Token 预算正在从技术问题蜕变为权力问题。文章中 Mike Taylor 的预测——经理比独立贡献者更容易获得预算——暗示着一场重新划分组织内部权力版图的游戏已经开始。

故事

1930 年代,IBM 的托马斯·沃森将制表机租赁给企业的模式,最早在人事和财务部门之外扩展时,遭遇了一个预料之外的问题:谁来为这台昂贵的机器买单?最初是 IT 部门,但当销售部门发现它能做客户分析、市场部门发现它能做投放优化时,预算归属变成了部门权力之争。最终胜出的不是最需要的部门,而是最能向 CFO 证明 ROI 的那个——通常是销售。这直接塑造了接下来半个世纪的企业软件采购逻辑:技术决策向业务证明价值的部门倾斜。

回到 2024-2026 的 AI 部署,同样的剧本正在加速重演。Mike Taylor 提出的“交易员模式”——工程师管理数倍于薪资的 token 预算,需要审批、审计和风险限额——不仅仅是效率机制,更是一种组织控制工具。当“谁能用 Fable”和“谁只能用 Codex 2.5”的决策权从 CTO 办公室转移到财务和战略部门时,AI 能力不再是基础设施,而是一种需要争夺的稀缺资源,就像 1990 年代企业内部的差旅预算或办公室窗户。

文章提到 Uber、Meta、Amazon、Walmart 纷纷设置使用上限,而 8x8 公司要求员工“证明旧模型不够用”才能升级。这不是技术降级,这是引入配额经济。配额经济天然制造等级:实习生、普通员工、顶级工程师之间的差异,不再是头衔和薪资,而是“你能调动多少 token/秒”。这比任何职级体系都更赤裸地定义了谁在公司内部“值得投资”。

Aha 瞬间

“当计算资源变成一种需要争夺的配额,组织的真正等级制度就不再藏在工牌上,而是写在每个人的请求日志里。”


发芽 02:横向关联 — 从“电力计量”到“智能计量”的百年隐喻

种子

Token 紧缩的出现,类似于电气化早期工厂从“统一电费”转向“单位能耗核算”的拐点。历史提醒我们:计量方式会反过来塑造使用行为。

故事

1900 年代初,工厂从蒸汽动力转向电力时,最初的电费按“接入电机数”收,不管实际用多少。结果工厂老板把电机开到最大,浪费严重。直到工程师亨利·甘特(没错,甘特图的甘特)推动了“单位能耗计价”,工厂才开始精确计算每台机床的电力成本,并催生了第一个工业能效管理岗位。

今天的 token 紧缩重复了这个模式。2024 年的企业 AI 补贴期,就像早期工厂的“统一电费”——OpenAI 和 Anthropic 给企业大额预付费折扣,公司鼓励员工“多用”。而当账单暴涨(Kieran Klaassen 两天烧掉 2000 美元 Cursor 额度只是冰山一角),财务部门开始问:每个 token 到底产出什么?

但关键区别在于:电力是均质的——一度电就是一度电。而 AI 模型是异质的——Claude Opus 4.8 的 token 不只是更贵(贵 1.7 倍),它的“智能密度”也不同。这就把 token 管理变成了一个复杂的投资组合问题,而不是简单的用电审计。Mike Taylor 的金融交易类比之所以成立,恰恰因为选择用哪个模型、分配多少预算、冒多大风险,与选择交易策略、配置资金、设定止损的逻辑高度同构。

这也解释了为什么“完全禁止 AI”不现实(就像工厂不可能退回蒸汽时代),但“谁都可以用最贵的模型”同样不可持续。企业正在寻找一个中间态——既不是 tokenmaxxing 的挥霍,也不是打回手工劳动的倒退,而是像现代工厂的能源管理系统一样,把 AI 智能分成等级,精准匹配任务价值。

Aha 瞬间

“Token 计量的真正力量不在于阻止浪费,而在于迫使企业第一次诚实地回答:什么样的思考值得用最贵的思维来辅助。”


发芽 03:批判性视角 — 当“手工创作”变成新的奢侈

种子

材料末尾 Daniel Rodrigues 的观察——AI 创作和手工内容在网上分裂成两个阵营——触碰了一个更深层的问题:当机器生成变得廉价且普遍,“纯手工”本身会溢价,但这种溢价会不会只是精英的特权?

故事

19 世纪末“工艺美术运动”的兴起是一个极其吻合的类比。当工业化大规模生产家具、纺织品和书籍,使得中产阶级也能拥有装饰品时,约翰·拉斯金和威廉·莫里斯发起了对“机械制造的堕落”的批判,主张回归手工艺。他们的产品精美绝伦——但也昂贵到只有富裕阶层才负担得起。讽刺的是,工艺美术运动在理念上反对资本家的工业化,在实践中却成了资本家的收藏品。

今天同样的张力在 AI 内容领域展开。Daniel Rodrigues 说 AI 工具让他“比以往任何时候都更有能力”,但当人们称赞他墙上的 AI 辅助作品时,“感觉更像是策展而非创作”。于是他想拿起画笔,“创造一些他完全负责的东西”。

这种渴望——逃离 AI 的廉价超能力,回到原创的纯粹——在道德上令人舒适。但请注意:谁能负担得起“不用 AI”的奢侈?Austin Tedesco 的写作流程给出了一个重要信号:他让 AI 处理“季末战略文档”这种效率型写作,而保留个人 Substack 的“真正写作”。他的“真正写作”仍然用 AI 做思想伙伴和编辑,但他控制了起点的“手工性质”。

问题来了:当公司收紧 token 预算,只有精英才能用 Fable 级别的模型,而其他人被退回“手工代码”或“手工写作”时,“不用 AI”到底是一种道德选择,还是一种预算等级的标志?就像威廉·莫里斯的手工壁纸,今天可能成为 Instagram 上“反 AI”审美标签的素材——但买得起它的人,从不缺选择。

Aha 瞬间

“在一个计算配额的世界里,‘纯粹手工’既是反抗的姿态,也可能只是某些人被迫接受的低配现实,被另一些人包装成自愿的品味。”


你的思考空间

  • 如果你的老板明天告诉你,你的 token 预算是你月薪的 30%,你需要向一个审计委员会解释每一笔大额使用——你的工作流程会先从哪里断裂?又会从哪里进化?
  • 当“证明旧模型不够用才能升级”成为公司政策,谁最有能力做这种证明?这会不会系统性地奖励那些更会写 prompt 的人,而不是那些岗位真正需要高智能模型的人?
  • “手工创作”的复兴是真实的需求还是对 AI 侵蚀的一次防御性退缩?十年后,我们会不会像今天看有机食品市场一样看“人类原创内容”标签?
  • Mike Taylor 的交易员类比忽略了一个关键点:交易员用别人的钱冒险,而工程师用 token 预算时,冒险的是自己的职业声誉和产品方向——这两种“风险”真的可比吗?