AI 无所不能,直到它遇上了 PowerPoint

原文:https://every.to/also-true-for-humans/ai-could-do-anything-then-it-met-powerpoint


作为一名咨询顾问,我大部分时间都花在 PowerPoint 上。驱动决策的从来不是数据,而是叙事。不管你喜不喜欢,一块发光屏幕上展示的幻灯片,就是我们这个时代最接近祖先们围坐在篝火旁讲故事的方式。

职业生涯早期,我故意把幻灯片做得很丑,以此证明我的想法足够好——不需要花哨的排版来说服别人。但在金融或咨询行业,这种态度撑不了多久。

客户会把任何对细节的忽视看作你不可信任的信号。分析师们通宵达旦地把幻灯片打磨到像素级完美,因为用错字体或 Logo 就可能被炒鱿鱼。纳塔莉亚·金特罗(Natalia Quintero) 是 Every 咨询业务的负责人,她在入职第一份工作的几周后就深刻领悟了这一点:一家公司的高管因为她团队制作的演示文稿颜色不匹配,直接否决了整个提案。他的逻辑是:如果颜色都如此草率,那数字也一定好不到哪去。

我们不是高盛或麦肯锡,但在 Every,我们仍然需要通过演示来传达专业能力。与此同时,如果我们自己都不使用 AI 来辅助工作,那作为一家 AI 赋能合作伙伴也实在缺乏可信度。挑战在于,AI 创造的演示文稿往往讲不出一个好故事——而这种叙事连贯性的缺失,传达出来的信息与草率的设计如出一辙:你不够用心,没有关注细节。

接下来要讲的,就是我们尝试用 AI 打造完美 PowerPoint 的故事。我们从 Claude 和 Codex 的 PowerPoint 技能入手,但两者都无法将流程自动化到我们所需的品质水平。所以我们自己造了一个。如果你也需要制作大量演示文稿,或者你对品质的要求同样高,走我们这条路或许是值得的。

Claude 差一步就成功了,但这一步跨不过去

今年二月我加入 Every 时,我们的咨询团队仍然在 Figma 里手工制作所有幻灯片——每周大约两到三套。我做的第一件事,就是尝试让 Claude Code 为即将到来的演示创建 PowerPoint 幻灯片。

结果不太妙:

Mike’s first attempt at creating a PowerPoint with Claude did not go well. (All images courtesy of Mike Taylor.)

为了让 Claude 在 PowerPoint 上能正常工作,Anthropic 投入了大量精力来创建其官方 pptx 技能。单靠一个 markdown 文件是行不通的。这项技能在文件夹里有 59 个不同的文件,其中 16 个是用于与 PowerPoint 交互的 Python 脚本。skill.md 文件本身超过 4000 个单词,参考文件中还有额外的 3000 个单词。

Claude 从零开始构建幻灯片的能力出奇地好——不是因为它懂 PowerPoint,而是因为幻灯片本质上是一个布局问题。在页面上排列文本块、图像和形状,正是 HTML 的构建初衷,而 Claude 能熟练编写 HTML。因此,它可以布局出一个精美的演示文稿,交回到你手里时已经可以直接用来演示,这比市面上任何专门的 AI 演示文稿创作工具都更出色。

然而,一旦你使用公司模板,它马上就乱了套。匹配一个现有的设计和写作风格对 AI 而言是一项艰巨的任务,因为它需要空间感知能力、叙事结构、研究严谨性、设计审美和良好的品味——这些都是人类依然占据优势的领域。要制作一个经过充分研究的演示文稿,你需要给 Claude 喂入大量材料,而你给它的任何内容都会消耗其上下文窗口,也就是它在一次聊天会话中能读取的文本量。一旦堆入超过 200,000 个 token(大约 150,000 个英文单词),你就会撞上上下文腐烂:模型开始变得困惑,并犯下愚蠢的错误。此外,微软的 .pptx 文件格式从一开始就没考虑过面向智能体来设计——它很混乱,token 利用效率低下,而且难以可靠地操控。

一份正确率达到 80% 的 AI 生成演示文稿,往往比完全不用 AI 更糟糕。审查一个看起来精美的演示文稿、找出其中隐藏的错误,比你自己动手做一个正确的版本更难,而且人们会过度信任 AI 的输出。在追求完美 PowerPoint 的过程中,我们发现,自动化只有在你接近于零缺陷率时,才变得真正有用。达到这个标准是有可能的——但前提是需要在编写、测试和编排 skill.md 文件上投入超乎寻常的工作量。

Anthropic 的技能在更新或编辑旧演示文稿方面也表现不佳。因为 .pptx 文件是以 XML 格式存储的,而 Claude 受训时接触的 HTML 数据量是 XML 的数百万倍,所以模型很难在脑海中渲染它正在处理的对象。它无法可靠地预测文本将在何处换行或图像将在何处重叠,因此它是在没有真正“看见”幻灯片的情况下进行修改。

在幻灯片上训练一个超级智能体

我们的高级应用 AI 工程师 尼提什·阿加瓦尔(Nityesh Agarwal) 主动承担起了解决 PowerPoint 难题的任务。他调整了 Anthropic 的 PowerPoint 技能,增加了几项关键功能,并将其集成到我们的 AI 助手 Claudie 中。

最大的改进来自于采用了“蓝图优先”的方法。Claudie 不再直接生成最终的演示文稿,而是先创建一个计划,确定需要哪些幻灯片,并为每张幻灯片编写详细的视觉方向说明。它吸取了两方面的输入:一份基于 Granola 客户通话记录构建的议程,以及一份列出会议主要叙事点的目录。然后,Claudie 会在 Slack 中等待我的批准,再继续推进。这个“人机协同”的过程在好几个节点上救了我们,帮助我们避免将大量 token 浪费在内容过于浅薄、不适合演示的文稿上。由于议程输入详细说明了事件的顺序和每个主题的要点,它几乎从未漏掉过某张幻灯片。

那时,制作幻灯片大约占我工作的 80%,而我正全国各地出差,每周为我们的客户做三到四场关于 AI 采纳和实施的研讨会。我离不开 AI 来制作幻灯片,因为我没有时间完全手工完成。有了 Claudie 和她新的 PowerPoint 技能,我可以跳上飞机,在我抵达时幻灯片已经为我做好了——Claudie 运行在我们纽约办公室的一台 Mac Mini 上,即使我离线,她也能工作。入住酒店后,我可以进行手动修改,并准备好第二天进行演示。我们还为 Claudie 构建了其他技能,比如将通话记录综合成每次研讨会的议程,起草新合作的提案,以及为参与者构建当天要完成的练习。

为了创建符合 Every希腊-罗马式波普艺术品牌风格的图像,我们给了 Claudie 一项由 GPT Image 2 驱动的图像生成技能,并将其作为一个专门步骤接入我们的幻灯片创建流程。到了四月份,我们在技能上的积累加上 Opus 4.7 的发布,共同催生了我所见过的 AI 制作的最好的幻灯片之一

The best AI-generated slide deck I had ever seen in April, made possible by Opus 4.7.

相信我,它并不完美。Opus 决定创造一种全新的品牌风格,因为它觉得我们的不够好。(我其实更喜欢 Opus 的风格,但严格来说它并没有遵循我的指示。)Claudie 给我们一份演示文稿草稿后,我们经历了多达 40 轮来回迭代才得到最终产品,而此后我仍然需要为每份文稿再做一两个小时的手动修改。

最大的生活质量改进是我可以“设置好就忘掉”——开会前在 Slack 里向 Claudie 发出请求,然后在下一次会议开始前给她反馈。

但仍有少数情况下,Claudie 的工作成果无法使用。当材料特别复杂或陌生时,演示文稿只会触及皮毛,遗漏掉重要洞察。有一次为一个关于 OpenAI 编排库 Symphony 的半日研讨会准备材料,我只用了 Claudie 做的几张幻灯片,自己熬夜到凌晨 2 点去完善整套文稿。当真金白银的场合到来时,我退缩了。我们第一次在高管场外会议上向一家数十亿美元公司的整个最高管理层进行演示时,幻灯片是我手工做的。

尽管如此,到了四月中旬,情况开始好转。我们已经能做到让文稿符合品牌调性,并且只需半个小时就能修正完毕,而不像以前那样需要从头花三个多小时来创建。

构建 25 套文稿,零失误

到四月底,在内部用几十套文稿对工作流进行过压力测试之后,我们准备好引入外部协助了。我们与一家每周制作大约 25 套销售文稿的公司签订了合同。在这种规模下,将文稿工作自动化是合理的——这能将团队解放出来,从事像业务拓展这样更高价值的任务。但这些文稿是要发给重要的销售潜在客户看的,一个错误就可能损害与潜在客户之间的信任。

起初,我从尼提什现有的、蓝图优先的解决方案开始,并尝试在 Claude Code 中进行“氛围编程”,使其适应客户的模板。Claude 复制了我们已有的 PowerPoint 技能,读取了客户发现通话的记录,并重写了现有技能以匹配客户的风格和要求。我让 Claude 在客户分享的两份简报上运行新升级的技能,并将其输出与客户实际演示的文稿进行比对,以找出任何差异。我们重复这个过程八次。每一轮,Claude 都会根据发现的差异提出修复方案,直到它自信地宣布它的版本比客户的原版更好。

然后我打开了其中一份文稿。简直是场灾难。

幻灯片位置错乱。文本互相重叠。有几张头像甚至标错了名字。当我问发生了什么时,Claude 承认它并没有实际查看这些演示文稿。相反,它编写了一套评估指标——也就是检查特定修改是否进入了文稿的代码。但那段代码只验证内容,不验证外观,因此完全漏掉了像布局错乱这样的问题。

我打起精神,清空日程,开始微观管理 Claude,逐一拆解每一个问题。这个过程花了三周时间,并经过了多轮客户评审。最终的成果是一个由 24 项技能组成、在 11 个独立阶段中运行、并由 18 个 Python 脚本支持的插件。总而言之,生成一套文稿花费了 2890 万个 token 和 62 美元。以下是最终插件结构的(匿名化、通用化)示意图:

The final structure for a custom PowerPoint skill costs $62 per deck to run.

技能可以链接到其他技能。这正是编排之所以可能的原因:每项技能都可以移交给下一个,因此你能将它们串联成一个完整的工作流。Claude 完成一个任务,然后运行你指定的下一个技能。以下是这项技能工作流中发生的事情:

  • 输入: 一份简报(主题、受众、目标)和一个知识库(内部数据、文档、原始资料)
  • 阶段 1,模板准备: 定义蓝图(幻灯片类型、章节、流程),并清理/标准化布局、样式和品牌。
  • 阶段 2,框架设定: 定义受众和成功标准,然后对关键问题和假设进行深入研究。
  • 阶段 3,研究与决策(顺序执行): 一个按顺序运行的六步链,用于识别主题、评估选项、细分细节、分析影响、综合洞察和映射连接。
  • 阶段 4,内容研究(并行执行): 深入研究同时拆分到多个内容部分(A 到 N)中同步进行。
  • 阶段 5 和 6(并行执行): 演示文稿前部(标题、议程、关键信息、开场)与后部(详细分析、数据/证据、附录)同步构建。
  • 阶段 7,叙事润色: 编写故事线、过渡和要点总结,将它们串联成一个整体。
  • 阶段 8,视觉资产: 创建图表、示意图、图标和信息图。
  • 阶段 9,组装: 将内容置入模板,并检查流程与一致性。
  • 阶段 10,评审: 对逻辑、准确性、设计进行质量把关,加上利益相关者反馈(并循环回组装阶段)。
  • 阶段 11,移交: 打包最终的演示文稿,连同注释、理由说明和资料来源。
  • 输出: 底层产出三个交付物:精美的幻灯片文稿、一份移交文档,以及一个资产库。

我们一块砖一块砖地搭建出了能够独立站立的成果。每当有东西失败,我们就把它抽出来作为独立的技能,并进行 A/B 测试,直到问题消失。当模型错误地研究了来源时,我们就重写技能,引导它去人类会查看的地方。当幻灯片标题过于通用时,我们就提供捕捉到客户喜爱风格的示例。当正确的字体颜色在组装阶段丢失时,Claude 会写一个脚本,让那部分变得更确定可控。我们不再每次都跑整个管线——那每次要花将近一小时——而是可以隔离问题,解决它,然后继续前进。

对于绝大多数组织而言,这种复杂度和投资并不必要,但在这次的项目里,它是必需的。即便投入如此之大,这个解决方案仍不完美,但现在我们客户团队的成员可以在一个下午生成 10 套文稿。

别急着炒掉你的分析师

正如我们这场 AI 生成幻灯片的实验所希望展示的那样,对大多数人来说,用 AI 完全自动化演示文稿创作并不值得。大多数客户的规模尚未达到能证明进行适当的技能优化和质量控制是合理的程度。除非你每个月都在做数百个形状相似的演示文稿,否则这很可能不值得。自动化你能够自动化的部分,然后等待下一个模型发布,或者等别人发布一个更好的插件或工具。

另一个选择是,你可以从 PowerPoint 的复杂性中抽身,转向 Claude 擅长得多的 HTML。Every 咨询团队的另一位同事就选择了这条路,制作交互式的 HTML、CSS 和 JS 幻灯片。这个前端幻灯片库可以帮助你实现类似的效果。市面上也有 AI 优先的幻灯片制作工具,比如 Gamma,不过你会被锁定在他们的系统里。尼提什最终是用我们对 Fable 的早期访问权限解决了我们的 PowerPoint 问题,构建了 Hands on Deck,一个开源工具,让 Claude 能够对现有的 PowerPoint 模板进行有针对性的修改,错误率大大降低。

但是,别太快炒掉你的分析师。根据我们的经验,用 AI 自动化事务反而会带来更多的工作,而不是更少,因为现在你可以接触五倍于以往的潜在客户,或者在一周内举办四场研讨会,而不是两场。

回报是巨大的。从制作幻灯片中解放出来的时间,让我可以参加更多的销售电话,帮助撰写提案,并为我的高管场外会议的每位参与者制作定制的练习。我还能以手工操作难以实现的速度进行修改:当客户在研讨会前一天的晚上 10 点发来一份修订后的简报时,Claudie 连夜更新了整个文稿。若在以前,我们为了准备,只能推迟会议。

编写制作幻灯片的技能并让它们协同工作,是一项持续进行的工作——即便如此,输出的质量也只会和我们提供的输入一样好。为了给 Claudie 值得展示的洞察,我们必须与客户交谈,向她讲述我们的经验,并将我们运行的实验和使用的工具的截图提供给她。然后,我微观管理整个演示流程,直到叙事浑然一体。

事实是,制作文稿过程中最艰难的部分从来不是移动像素,而是拥有值得展示的东西。这正是你和我依然被需要的地方。

核心启示:用 AI 完美生成演示文稿的真正瓶颈,不在于 AI 的排版能力,而在于我们能否向它输入足以提炼出深刻洞见的、高质量的原始素材和思考。在这个问题上,人的价值仍然不可替代。

“AI 可以做任何事。然后它遇见了 PowerPoint。” 的发芽报告

材料核心

这篇文章不是关于 AI 不会做幻灯片,而是关于一个更残酷的真相:在追求“完美”这条路上,AI 能把 80% 的工作量压缩到零,但剩下 20% 的校对、判断和叙事责任会被放大成一种新的、昂贵的、令人抓狂的人类劳动。我们以为在消除苦力,实际上只是把苦力从“手动排像素”转移到了“编写和调试 AI 技能文件”。


发芽 01:最后 10% 的完美是最大的成本陷阱

种子

Mike 的团队发现,AI 生成的幻灯片如果只有 80% 正确,比完全不用 AI 更糟糕——因为人类审查看起来已经很精美的幻灯片时,反而更容易忽略隐藏的错误。这一洞察揭示了自动化中的一个悖论:半成品往往比零起点更危险。

故事:古德哈特定律与“看上去很好”的陷阱

这不仅仅是 AI 幻灯片的问题。1975 年,经济学家查尔斯·古德哈特(Charles Goodhart)提出了一个后来被反复验证的定律:“当一个指标成为目标,它就不再是一个好的指标。”在英国,医院急诊室被要求将等待时间控制在四小时以内,结果一些医院让患者在救护车里等待——不算“抵达急诊室”——直到有把握及时收治才将他们送进门。指标数字完美,实际体验却恶化了。

AI 幻灯片也是如此。当 Claude 学会复制 Every 公司的希腊罗马波普艺术风格时,它甚至自作主张地“改进”了品牌设计,因为它优化了“美观”这个指标,而非“服从指令”。审查者看到精美的页面,大脑就会跳过“这里是否有逻辑错误”的检查——就像看到整洁的手术室,你不会想到去数纱布数量。

Mike 写道:“一个没有叙事凝聚力的 AI 幻灯片,传递的信息和潦草设计一样:你不够在乎细节。”但讽刺的是,AI 幻灯片的问题恰恰相反——它“太在乎”表面细节,以至于掩盖了内里的裂缝。这正是 1986 年切尔诺贝利核事故调查中发现的一种认知偏差:控制室的操作面板显示一切正常,因为传感器测量的是工程师设定给它们的指标,而没人质疑这些指标本身是否包住了灾难。

Aha 瞬间

“当工具能模拟完美,人类的审慎就成为唯一的安全网——但审慎恰恰是我们在面对‘看起来很完美’的东西时最先抛弃的东西。”


发芽 02:花 62 美元生成一套幻灯片,其实是便宜的

种子

Mike 的团队最终造出了一个庞然大物:24 个技能文件、11 个阶段、18 个 Python 脚本,生成一套幻灯片要烧掉 2890 万 token,成本 62 美元。表面看贵得离谱,但如果把这笔账放到真实的经济决策里算,它可能揭示了 AI 自动化的真正定价逻辑:我们不是在为“生成”付费,而是在为“避免错误决策的损失”付费。

故事:卡尼曼的“决策会计”与 SpaceX 的火箭方程式

2002 年,行为经济学家丹尼尔·卡尼曼(Daniel Kahneman)在一项研究中发现,人们对“损失”的估值大约是“收益”的 2 到 3 倍。这意味着,如果一套手动制作的幻灯片能带来 500 美元的生意,但其中一次疏忽可能导致失去一个 5000 美元的合同,那么花 62 美元去消除那个“可能葬送生意的字体错误”,在心理和财务上都是理性的。

更深一层,SpaceX 的工程理念可以提供一个工业级类比。传统航天工业中,一枚火箭的制造成本动辄上亿美元,但 SpaceX 问了另一个问题:如果我们把“一次性完美”的目标,换成“可承受的失败+快速迭代”,成本结构会变吗?他们造出了可回收的猎鹰 9 号,单次发射成本从数亿降到约 6200 万美元。

Mike 的团队走的是相反的路径,却是基于同样的成本思维。“错误容忍度”才是方程式的关键变量。如果 20 个客户里只有 1 个会注意到品牌颜色偏差,那就没必要花 20 美元去修复;但如果那是向一个十亿美元级公司的 C-suite 做首次提案,哪怕 2000 美元也是便宜的。文章里 Mike 坦白,面对这种高压情境,他选择了“临阵脱逃”——自己亲手做。这不是对 AI 的否定,而是对“错误成本”的真实回应。

Aha 瞬间

“AI 自动化的单位成本不该用 ‘每次生成’ 来衡量,而应该用 ‘每次生成可能阻止的错误损失’ 来衡量。”


发芽 03:当篝火变成算法,谁来负责讲好那个故事?

种子

文章开篇有一个绝妙的隐喻:幻灯片是现代部落聚集在发光的屏幕前讲故事的篝火。但整篇文章下来,团队几乎把所有精力都花在了“教 AI 如何堆木柴和调火苗颜色”上,直到最后才意识到,最难的部分从来不是像素,而是“有什么值得讲”。

故事:亚马逊的六页纸备忘录与美国原住民的口述传统

人类学家波莉·维斯纳(Polly Wiessner)在研究喀拉哈里沙漠的朱/霍安西部落时发现,他们白天的对话 70% 围绕着食物采集、工具制作这类生存事务,但一到晚上篝火升起,超过 80% 的交流转向了故事、神话、遥远亲属和道德叙事。白天是“怎么活下来”,夜晚是“为什么活着”。

这和 Mike 的幻灯片进化史形成了诡异的对照。白天,分析师为像素对齐熬夜;夜晚,合伙人对着客户的屏幕讲故事,传递信任、愿景和决策依据。AI 完美地学会了白天的技能——像素精度、字体统一、版式美感——但它从没参加过夜晚的篝火。Claude 可以合成出“有叙事凝聚力”的幻灯片,但它无法从和客户喝咖啡时捕捉到的叹息声、在工厂车间里看到的工人眼神中,提炼出那个真正能打动人的“为什么”。

这也是为什么亚马逊在 2004 年用六页纸备忘录取代了内部会议的 PPT。杰夫·贝佐斯禁止使用幻灯片,因为他认为幻灯片的结构——标题加要点——会抑制复杂思考,而叙述性的备忘录强制你从头到尾想清楚一个故事的每一环。AI 今天可以生成漂亮的幻灯片,也可以写出通顺的六页纸,但它依然没有“值得讲的故事”,因为它没有坐在篝火边,没有经历过那些必须在深夜做出艰难判断的时刻。

Aha 瞬间

“篝火的光是温暖的,因为它来自燃烧的木头;幻灯片的光芒是冷的,因为它来自像素的冷光。AI 能做的是像素,而你负责的,是那捆木柴里藏着的烟和热。”


你的思考空间

  • Mike 的团队最终把“迭代优化 AI 输出”变成了一个全新的工种。如果每个公司都需要一个“AI 技能工程师”,这会如何改变“谁有竞争力”的定义?是懂业务的人,还是懂代码的人,还是两者之间的某个新角色?
  • 文章中那个花了 62 美元生成一套幻灯片的过程,消耗的 token 和计算资源带来了实际的碳排放。追求“零缺陷”的自动化,在环保意义上值不值得?我们是否应该接受“够好就行的 AI”?
  • 当人类审查者过度信任看似完美的 AI 输出(如文章所述),这会如何改变培训新员工的方式?我们是不是应该故意引入错误,训练人们“批判性地看完美的东西”?