我采访了 GitHub COO 的 AI 分身——然后又采访了真人

我以参会者和演讲者身份参加过许多科技大会,但今年的微软 Build 大会——这家公司的旗舰开发者活动——是我第一次以媒体身份参加。
为了缓解冒充者综合症,我在采访 GitHub 首席运营官 Kyle Daigle 之前做了一项实验。Kyle 是一位于 13 年前以开发者身份加入公司的真正 GitHub 老将。我构建了一个模拟版 Kyle——一个从他的公开文章、演讲和访谈中提炼出的 AI 人格——然后向 AI Kyle 问了我计划问真人的那些问题。
我原本预期输出要么精准得可怕,要么毫无用处。结果两者都不是——正是这一点让它变得很有价值。
在 12 个问题中,2 个回答高度匹配,4 个部分匹配,6 个明显失误。值得称道的是,模拟人格在缺乏证据时会坦白说出来,而不是凭空捏造。这些空白正是最有用的准备——它们告诉我哪些信息在公开记录中不存在,因此我在实际采访中应该把时间花在哪些地方。
我花了大量时间与 AI 人格对话。我上一家创业公司 Ask Rally 是一个虚拟焦点小组工具。我们发现 AI 无法替代真人,但在高风险场景中,角色扮演能帮助你跳出自我、增强策略信心并避免代价高昂的失误。我们比自己想象的要更可预测,有些研究表明 AI 人格在复现真实人类反应方面准确率可达 85%。
以下就是这次采访实录,并附有模拟人格哪些地方对了、哪些地方错了、以及这种对比在哪些地方有启发性。我们还回过头去找了真人 Kyle——他的看法比 AI 的答案更让我们惊讶。
1. 扩大开发者的定义
Mike: 客户群体正在变化。很多以前可能从未用过 GitHub 或其他开发者产品的人现在开始用了。这如何改变了你们决定产品路线图的方式?
Kyle Daigle: GitHub 一直对“谁是开发者”持一种更宽泛的看法。我在自己会称自己为开发者之前就开始写代码了。我写代码是为了自己用,而且我不是学计算机科学的。我读的是艺术学校,写代码是为了支付艺术学校的费用。
这段经历很重要:我可以和团队一起创建工具,并把它们交给那些想为自己、家人、初创公司或企业构建应用的人。GitHub 有最顶尖企业使用的高阶开发者工具,但当我看到 GitHub Copilot 应用时,我既看到开发者在同时跑多个项目和 agent 会话,也看到我们法务或财务团队的同事在使用它。客户也这样告诉我们。那些业界可能称为知识工作者、或者按职业来说并非开发者的人,正在用这些工具构建小应用或小资产。
我们的重心仍然非常明确地放在开发者身上,但我们希望降低人们尝试写代码的门槛。应该始终有一条进入软件开发领域的通道,包括通过 GitHub Copilot 应用这样的工具。
模拟分析: 部分匹配。AI Kyle 正确预判了真人 Kyle 的核心论点:AI 正在扩大谁可以构建软件的群体——甚至提供了一个真人 Kyle 很可能提到的验证框架:“我反复使用的设计检验标准是‘不产生新的行为’。新功能应该融入开发者工作本已发生的地方。” 但它无法给出艺术学校的故事或法务和财务团队的例子,而这些恰恰让真人的回答变得生动有力。
2. 帮助维护者应对 PR 洪流
Mike: 你们如何帮助开发者应对大量额外 Pull Request 带来的负担?我接触到的开源维护者快被淹没了。需要做些什么来帮助他们?
Kyle Daigle: 对于一般开发者,我们正在构建诸如 Copilot 代码审查这样的工具。它现在具备了代理能力,因此能发现更多新颖的漏洞,而且你可以进行评论,让代理来执行修改。代码审查是让 PR 进入更易审阅状态的一种被忽视的方式。
代理合并是另一个例子。一个 PR 可能快好了,但仍有一些需要手动完成的步骤。相反,我可以定义 GitHub Copilot 允许做什么,然后告诉它合并 PR、等待 CI,等待策略通过。
开源有一组独特的需求,因为维护者无法控制是谁发送了改动。我们专注于给予维护者更多控制权:他们是否想接受 PR,想接受谁的 PR,以及贡献者需要完成多少工作来证明本次贡献是有意义的。每个社区都在选择略有不同的做法。GitHub 希望提供基础构件,并让维护者保有控制权。如果某种标准做法出现了,我们可以围绕它固化一个系统,但我们不想率先强加一个系统。
模拟分析: AI 把握住了指导原则,但实质内容错了。它最出彩的一句话——“系统应该给维护者明确的规则和护栏,而不仅仅是一个更大的收件箱”——是真人 Kyle 可能说出来的。但它没有指出任何产品。Copilot 代码审查、代理合并、贡献者接受控制这些内容,对一个从公开材料中构建的人格来说都是不可见的,因为它们直到这次大会才公开。
3. Agent 生成活动的增长
Mike: 你在这个全新的 Agent 经济中占有一线位置。你公开说过,你一个月收到的 PR 比你去年全年都多。那些统计数据是如何爆发的?
Kyle Daigle: 我们看到 GitHub 上的活动量大增。去年 10 月在 GitHub Universe 上,我们分享过 GitHub 全年有 10 亿次提交。如果今年线性增长——当然这不会发生——我们正走向 140 亿次。光是三月份,仅 Agent 就创建了 1700 万个 PR。
有更多的代码在被创建。有时候人们会轻视这些代码,觉得是没人关心的东西被推了上来。这并不完全对。我们正在离开超级早期采用阶段。我们还没到顶峰,但我们正在上坡,我们正在学习当不再是 Kyle 一个人在构建,而是 Kyle 加上一个、两个甚至 N 个 Agent,使用我的技能、资源和上下文时,我们能构建什么。
我们正在大力投资,为下一波增长做准备,因为这看起来不是增长后趋于平稳的趋势。无论人们在哪里构建、使用什么工具,代码最终都会到 GitHub 上来共享和协作。我们需要支持每个人的 Agent 时刻,而不仅仅是 GitHub Copilot 的。
模拟分析: 未命中。AI 复述了去年的公开数字——它只能重新搬出你已经有的数据。
4. 始终在线 Agent 的商业模式
Mike: 商业模式会如何改变?在以人为本的世界里,我们要睡觉,免费增值模式是有道理的,但 Agent 在我们睡觉时仍会工作。这是否会推动走向基于使用量的定价?
Kyle Daigle: 我认为我们还不知道。现在,Kyle 有许可证,或者免费使用 GitHub.com,而我们一直都有 API 速率限制。人们通常就是在那里感觉到 Agent 带来的回压。
如果你想做更多,比如让 150 个 Agent 同时做事,我们希望支持你。同时,我也希望你有一个出色的核心 GitHub 体验,其中包含一定量的 Agent 使用,作为一种必要的组成部分。这有点像 GitHub 从有免费公共仓库但没有免费私有仓库,演变为给个人提供免费私有仓库的过程,因为人们理所当然地有不想公开的代码。
GitHub 是随着行业和社区的发展而演变的。我们专注于确保开发者拥有成功所需的条件,然后与企业合作,确保他们在大规模场景下也能获得所需。这两者的需求通常是有差别的。
模拟分析: 两个 Kyle 都以相同的想法开场:没人知道。但真人 Kyle 的回答之所以更具说服力,是因为他使用了假设性例子来解释自己的观点。
5. 横跨 GitHub 与微软的双重职责
Mike: 定价问题又把我们引回更广的微软轨道中。你现在身兼双重职责,对更广泛的市场营销组织负有部分责任。这如何改变了你的工作?你如何在两者之间安排优先级?
Kyle Daigle: 我在 GitHub 已经 13 年了,自己当过开发者,后来大部分时间在领导工程团队。GitHub 独一无二的地方一直是我们极度专注于开发者。企业购买工具是好事,但我们不是为购买者构建产品,而是为使用者构建。
这就是我作为 GitHub COO 持续关注的焦点。而作为微软开发者 CMO,我的目标是在微软的开发者工具和技术范围内着眼全局,确保我们带来整体性解决方案,让开发者感到体验是真实、原汁原味的。
在像 Build 这样的大会上,我们今年采取了不同的做法。我们在旧金山,现场的氛围不同于传统的会议厅布置。重点是:我能去参加一场会议吗?我能用上这个东西吗?我不想被推销;我必须能够用上它。目标是让 GitHub 的专业知识、对开发者的关怀和专注,对微软整体产生更广泛的影响。
模拟分析: 一次彻底的失误。AI Kyle 质疑了我的事实基础:“可用的人格资料中……并未记载有关更广泛市场营销组织的双重职责。我建议在用这个前提之前先核实一下。” 这证明了基于公开材料构建的模拟人格是有时效性的。
6. Build 大会上的社区演讲者
Mike: 我是不是听你说,这是首次有外部贡献者和演讲者参加的 Build 大会?
Kyle Daigle: 这是首届我们有意识地让来自社区的演讲者参与主会场的 Build。主旨演讲中有像 Peter 这样的人,还有来自 Svelte 和其他社区的分享环节。
软件开发是团队运动。认为一家公司或一个团体——包括 GitHub 或微软——能回答所有问题,这是愚蠢的。我们都在使用开源软件,也都在重要的开源项目之上构建。我们应该邀请人们进来,一起讲述他们那部分故事。这就是开发者想要的,反馈也表明人们对于在同一场活动中看到来自微软、GitHub 和公司外部的视角感到兴奋。
模拟分析: AI 拒绝回答:“我无法从可用的人格资料中确认这一点。” 但这正是你希望从模拟人格中得到的——在不了解实情时承认自己不知道。
7. 在竞争激烈的市场中差异化
Mike: 这是一个竞争非常激烈的市场,变化速度也很快。你们如何实现差异化?
Kyle Daigle: 我们持续聚焦在我们的根基上:开发者选择、为构建者而构建、赋能构建者。我们经历了一个从有大量 API 和广泛接入的时代,进入了一个有点不自觉的围墙花园局面——人们对某一工具产生依赖,然后意识到想在其他地方尝试些有趣的,就意味要学习新工具或开新账户。
我们希望使用 GitHub 进行构建的开发者也能用上其他工具,我们愿意与所有人合作,让这件事尽可能简单。其他公司也做类似的事,但我们有能力在整个软件构建流程中支持选择——不仅仅是代码生成或协作审阅——这是我们真正的优势。
我们会投资自己的技术,包括新的微软 AI 模型,同时继续与 Anthropic、OpenAI、Google 以及任何将模型或编程 Agent 推向市场的公司合作。我们会让开发者把这些工具带到 GitHub,或通过 GitHub 和 GitHub Copilot 来使用。选择是核心。如果我们在这一点上退步了,开发者依然会做出选择;只不过他们会被困在另一座围墙花园里。
模拟分析: 在 12 个回答中,这是与真人 Kyle 的回答匹配度最高的。AI Kyle 当时说:“差异化不在于在一个拥挤的市场中比别人多一个 Agent……这意味着跨供应商的选择,而不是锁定在单一模型上。” 真人 Kyle 甚至使用了同一个意象——围墙花园。这是整个采访中我最不需要模拟练习的那部分。
8. 在保持开放的同时“吃自己的狗粮”(Dogfooding)
Mike: 最近有个关于 Claude Code 许可证被取消的新闻周期。你如何在深度使用自家产品,比如你们的新模型或 GitHub Copilot 桌面应用,与让开发者自由尝试其他工具之间做权衡?
Kyle Daigle: 我们所有人都使用各种工具,因为如果不这样,你就会走偏,变得过于局限在自己的工作上。我多年来每天都用 MacBook,玩电子游戏时用 Windows PC。当我接了这个职位后,我配置了我的 Mac、一台 PC 和一台运行 AlmaLinux 的机器。我大多数周六都写代码,并且我会在这几台机器之间轮换,因为我想理解每一种体验。我只在 Windows 上用 GitHub Copilot 应用,因为使用 Windows 的开发者同样值得拥有好的应用;这不仅仅是 Mac 用户的事情。
我们的团队也是如此。我们会研究编程 Agent、测试工具集、桌面应用、内存管理以及其他所有东西。每个人都在构建和使用这些工具。我们把大部分精力投入到我们自己的工具上,但聚焦得太窄以至于失去视野,这是一个盲点。当有新东西出来时,我想知道为什么人们使用它能获得那么好的体验。这有助于我理解该聚焦于何处,以及开发者为什么会选择某款特定工具。对我们团队来说也是如此。
模拟分析: 这是匹配度第二高的回答。AI 用一句真人 Kyle 很乐于署名的话抓住了核心概念:“吃狗粮应该打磨产品。它不该成为忽略开发者认为有用工具的理由。” 然而,它不可能知道 GitHub 的首席运营官每个周六在 Mac、PC 和一台 AlmaLinux 机器之间轮换着写代码。
9. 筛选短命创意与长期押注
Mike: 这些创意中有很多寿命都相对较短,而企业产品的开发周期则更长。你如何筛选创意并决定追求什么?
Kyle Daigle: 短期内,我们专注于支持大量的 Agent 会话,因为这看起来方向明确:每个人都在这么做,所以我们如何来巩固它?长远来看,模型会继续进步,token 经济将成为人们使用什么的重要因素,而且我相信,我们距离能够在本地设备上使用一个小型语言模型以上的模型来处理某些工作,已经不远了。
如果 token 有这么多可选择性,那么自 ChatGPT 和 GitHub Copilot 出现以来始终如一的真相就是:个性化、上下文、基于上下文的微调以及记忆。业界有过各种实验,但缺乏长期的愿景。
支持大量 Agent 很重要,因为使用 Agent 的人不会坐在那里盯着一个 Agent 干活。但仅凭这一点无法产生出色的长期体验。出色的体验是使用一个 Agent,感觉它好像正在为你完善一个想法,而不需要你去把这个想法本身明确转化成指令。Agent 应该能够直觉地理解这一点,或通过后训练、微调、前沿调优来深度理解我的工作方式。我们有时在短期工作上发力,有时则对长期目标反复尝试,直到有切实的东西帮助我们向前推进。
模拟分析: 这是模拟人格最钟爱的拐杖失效的地方。AI Kyle 再次——这是一再发生——搬出真人 Kyle 最有据可查的框架:“我使用约束优先的层级:MUST、SHOULD 和 COULD。” 在我 12 个问题中,它用了这个框架五次,而真人 Kyle 一次都没提。当人格分身用尽证据时,它会过度使用自己最熟悉的模式。这是一种比“幻觉”更隐蔽、但同样属于错误的失败。随着模型变得更好,它们应该会对单条上下文信息更少执念,并像人类一样放宽规则。
10. “爬坡”作为一种产品开发循环
Mike: 我昨天听到“爬坡”这个词一百遍了。你能谈谈它如何成为如此重要的焦点吗?
Kyle Daigle: Satya(Nadella)、Mustafa(Suleyman) 和领导 Copilot 团队的 Jacob(Andreou) 经常谈到它。我们学到的最重要的事是,使用这些工具本身必须是改善模型底层体验的核心方式。评估极其重要。点赞点踩的数据、人们是否接受了建议、他们接受的程度,所有这些都有助于为每个人创造有用的体验。
我们每周都讨论爬坡结果。我们既看硬指标也看软指标,因为有时评估量和评估标准都显示提高了,但用户满意度反而下降,哪怕同样的延迟和性能也如此。你可能会过拟合。
目标是快速运行这个循环,然后给每个人一台“爬坡机器”,而不需要迫使大家用很困难的方式来做。在一个使用 M365 的企业中,其资产、文档和聊天记录中都潜藏着丰富的数据。打开诸如前沿调优的功能,并用一个 MAI Phi-3 模型作为基础,就能够无需额外工作就看到真实结果。一开始,这听上去像是不真实的魔术。但有时,机会就存在于那些看起来简单得不像是真的地方。
这就是为什么我们反复讲爬坡。这不是登月计划。这是爬坡、改善、增加评估指标、再改善、加入新数据、再改善。我们就是这样走到现在,能够为我们自己发布模型,并让客户使用类似工具的地步。
模拟分析: AI 这次没有选择胡诌,而是说:“可用的人格资料中没有记载我将‘爬坡’作为一个特定组织术语使用,所以我不会为它编造一个起源故事。” 然后给了些关于快速迭代的抽象解释。真人的回答包含了模型绝对无法获得的新信息。
11. 让 AI 订阅保持可负担
Mike: 爬坡就是阻止 200 美元的订阅变成 2000 美元订阅的答案吗?
Kyle Daigle: 前沿调优模型,让它们更了解你,这是答案的一部分。另一重要部分则是帮助开发者自动选择模型。
Mike: 像 GitHub Copilot 里面的模型路由那样?
Kyle Daigle: 正是。GitHub 有一个基于任务意图的自动模型路由器,而 Microsoft Foundry 则在 API 层面提供了模型路由。我们越是能让人们告诉我们他们的标准在哪里——比如“这是一个极难的问题,我愿意一路冲到顶级模型”,或者“我想就保持在这个水平”——我们就越能帮助他们选择模型。
Token 经常很贵,因为人们会选择当日、当周、当时的当红模型,而这些模型可能很贵。但一条思路会在难题和简单步骤之间移动。我可能要求一个 Agent 做大量的工作,然后最后一步仅仅是改个名字。我大概不太会手动从昂贵的模型切换到小模型就为了节省那步的 token,但工具可以做到。这将帮助到企业、个人开发者以及通过 Copilot SDK 构建自动化的人。
模拟分析: AI 把握住了问题的要点,但未能解决它。它给出了问题的框架,指出模型做更多工作并不会自动意味着账单更便宜,而真人 Kyle 则谈到了解决问题的实际东西:自动模型路由器。
12. 个人使用 Agent 的不同寻常的方式
Mike: 我创建了一个你的 AI 版本来练习这次采访,并发现它非常有帮助。你还看到人们在内部或外部用 Agent 做哪些其他不同寻常的事情?
Kyle Daigle: 我也做类似的事。我通过应用配置了一个,还有另一个无法连接我工作系统的 Claude 实例,这样状态是隔离的。我花很多时间让它阅读我写的东西。这次采访最终也会喂给它。我每天都会收到一份沟通报告,内容类似于:“Kyle,你一直在说这个,”或者,“这一点表达得不够清楚。”因为我以特定方式写作和讲话,并喜欢使用隐喻,它会给我举一些表意清晰的隐喻例子。
整个人类的自我提升循环是强大得惊人的。我们之前在 GitHub 里就聊过这个,关于 Hubot 和 ChatOps:人类远比接受其他人的批评反馈更愿意接受来自机器人的。当我的 Claude 实例告诉我某件事做得多差时,我感觉更好,会请它解释为什么,然后把这些反馈用在我写邮件、写脚本或审阅细节的时候。
我的很多 Agent 循环是关于我自己的,而不是关于软件的。它往回看:读 Kyle 过去七天的邮件和 Slack 消息,给出反馈,然后再回过头来看那些建议,检查 Kyle 是否照做了。这个循环极其强大。这正是我想要的那种个人消费者 AI 体验。
模拟分析: 有趣的是,这个关于模拟采访的问题也属于未命中。当被问到不太寻常的 Agent 用途时,AI Kyle 承认它没什么可说,又退回到关于减少苦活累活的空泛说辞。而真人 Kyle 的回答揭示了一个具体的、个人化的工作流,既有趣又有帮助。
最好的采访准备,是知道该在何处深挖
Every 的总主笔 Eleanor Warnock 最近写下了她称之为“苏格拉底即服务”的概念:一种将人们尚未诉诸语言的想法挖掘出来的人类技艺,就像那个能成为头版故事的轶事,或能将某种哲学凝练为让读者铭记于心的细节。
这正是本实验帮我看见的差距所在。模拟人格知道 Kyle 在开发者选择和围墙花园上的立场,因为他多年来一直公开表明这些观点。但它不可能知道他会周六写代码、在三台机器之间轮换以对其他人的工具保持诚恳。
在实际采访结束后,我们请 Daigle 对这个实验发表看法,他回应道:“我觉得这次模拟采访相当不错!主要的问题是,它过于侧重在我的书面作品上,而非我的口头采访和播客内容。由于无法访问我所有对内的写作,它在我博客之类上谈到的话题上着墨过重,超出了我平时实际会讲的程度。”
这正是“采访前做一次 AI 模拟演练”的真正论据所在。它会向你展示公开记录中的空白在哪里,这样你就能在采访中填补这些空白,为你的读者和这个世界提取真正原创、稀缺的知识。
Daigle 也为我的回答找到了用途。“哪怕只是读 AI 的回答,我也发现它帮助我理清了思路,让我自己的回答更锐利,所以它也帮到了我。”
接着他补充道:“其实我对 Mike 也做了类似的事。猜测了他会问我什么问题。我没保存输出——我会定期垃圾回收很多东西——所以这很有趣,我们原来都在做着同样的事。”
也许我才是被整蛊的那个人。
核心启示: AI 模拟采访的真正价值,不在于它能否完美预测采访对象的回答,而在于它能诚实暴露公开信息的边界——那些空白处,正是值得用真实对话去挖掘的宝贵知识。
材料发芽报告:一次AI模拟采访的启示
材料核心
这篇文章的核心既不是讨论GitHub的产品策略,也不是展示AI对话能力,而是揭示了人机协作中一个反直觉的认知工具:AI模拟的真正价值不在于预测正确答案,而在于精确暴露我们不知道什么。作者Mike Taylor通过构建GitHub COO的AI分身进行采访预演,发现其核心收益来自那些完全无法回答的问题——它们精准标定了公开知识与真实人类之间的认知空白区。
发芽 01:AI模拟作为“反事实教练”——它的价值在于失误,而非成功
种子
原文反复强调一个看似矛盾的观点:AI模拟在12个问题中产生了6次实质性失误,但这恰恰是它最有用的地方。这挑战了我们对AI性能的常规评价标准——我们习惯用准确率衡量模型,却忽略了认知增益的最大来源可能恰恰是最低准确率的区域。
这个故事在科学史上有一个精彩的对应:19世纪中期,物理学家詹姆斯·克拉克·麦克斯韦在推导电磁理论时,最关键的突破不是来自成功的计算,而是来自一个错误的类比。麦克斯韦最初将电磁场想象成机械齿轮和涡旋的复杂系统(“分子涡旋模型”),这个具体化但本质上错误的模型,让他在1861-1862年间推导出了后来被实验完美验证的方程。一旦方程确立,他立即抛弃了齿轮模型,承认它只是脚手架。
这里存在一个深层的认知机制:当你尝试用已知结构去拟合未知领域时,精确的错误比模糊的正确更有价值。泰勒的AI Kyle在回答“如何在竞争市场中差异化”时几乎完美匹配真实Kyle——但这一题是泰勒“最不需要模拟帮助的”,因为答案早已在公开材料中。相反,那些完全失败的预测(关于新发布的产品、个人工作习惯、定价策略的实例)标出的是高价值信息的精确坐标。
1978年诺贝尔经济学奖得主赫伯特·西蒙曾提出“有限理性”理论:人类决策者不寻求最优解,而是在信息约束下寻找满意解。AI模拟的失误恰恰暴露了这些信息约束的边界——它告诉我们“你的信息环境里还缺什么”,而不是“你应该信什么”。
Aha瞬间
“当模型坦率地说‘我无法从公开材料中确认这一点’时,它在做一件更珍贵的事:不是在交付答案,而是在绘制认知地图的白区——那里才是真正值得你亲自去的地方。”
发芽 02:模型的“过度锚定”陷阱——当AI只掌握一把锤子
种子
原文中最具批判性的发现是:AI Kyle在12个问题中有5次机械地重复同一个框架——“MUST, SHOULD, COULD”优先级层级——而真实Kyle在整场采访中从未提及它。这不是幻觉,而是更隐蔽的失败模式:当模型缺乏充分证据时,它会将手头最强的信号不断复用,形成知识锚定。
这个现象在认知心理学中有精确的命名:2006年,心理学家Gerd Gigerenzer在《直觉》一书中分析了“再认启发式”——当人们缺乏完整信息时,会过度依赖他们认得出的信息,即使那个信息在当前情境下并不相关。一个经典实验是:当德国学生被问及“圣地亚哥和圣安东尼奥哪个城市更大”时,他们更可能答对(圣地亚哥),因为他们在足球新闻中听过这个名字;而美国学生反而更容易答错,因为他们的知识干扰了直观再认的证据权重。
AI Kyle的困境与此高度同构:它的训练数据中,Kyle Daigle关于优先级的博客文章权重最高(因为那是书面材料,相对口语采访更密集),因此模型将“MUST-SHOULD-COULD”框架锚定为“Kyle式思考”的核心特征,并在每个需要结构的问题中调用它。但真实的人类Kyle在思考短期vs长期策略时,用的是更灵活的叙事(“我们有时在短期上工作,有时在长期上反复尝试”),而不是僵硬的三层分类。
更深层的问题是:这暴露了当前大语言模型的“模式敏感度困境”。2024年Anthropic在解释模型行为的论文中提出了“特征过度泛化”——模型会在训练分布中捕捉统计共现,但当这些共现在真实世界中被稀释或改变时,模型无法自适应调整权重。AI Kyle最需要展示认知灵活性的时刻(面对新信息、新问题),恰恰是它最僵化的时刻。这与人类专家的行为形成对比:芝加哥大学心理学家Mihaly Csikszentmihalyi对创造性个体的研究发现,真正有创造力的人在面对新问题时,不是从他们最强的框架出发,而是从最弱的信号中寻找突破口。
Aha瞬间
“当模型把‘MUST-SHOULD-COULD’说了五次而真实Kyle一次未提时,我们不是在见证AI的无能,而是在见证认知的陷阱:真正的专业智慧不是拥有一套完美框架,而是知道什么时候该扔掉它。”
发芽 03:人类“想法的空区”与AI“证据的边界”——一场相互揭示的游戏
种子
文章结尾爆出一个精彩的转折:不仅泰勒用AI模拟Kyle做采访准备,Kyle本人也用类似的AI工具反向预测泰勒会问什么问题。这场“双方都在模拟对方”的动态,揭示了一个更深层的认知社会学术语——互相塑造的预期场。
社会学家Erving Goffman在1959年的《日常生活中的自我呈现》中提出,人际互动本质上是“印象管理”——每个人都在根据对他人预期的猜测来调整自己的表现。但传统Goffman框架中,这种猜测是黑箱的、直觉的。AI模拟将这个过程外化了:泰勒可以看到AI Kyle对他的预期的反馈;Kyle可以观察反方向的模拟结果。这不是简单的“两人对话”,而是两人-两模型-四个认知位置的复杂博弈。
这个结构在组织理论中有一个重要先例:MIT系统动力学创始人Jay Forrester在1960年代研究企业决策时发现,管理者总是在“被感知的环境”中做决定,而不是在真实环境中。他开发的“管理飞行模拟器”试图让管理者看到他们决策的延迟反馈——但Forrester未能解决的一个问题是:模拟器本身也是被简化过的环境,管理者可能学会在模拟器中成功,却在现实中失败。
“双重模拟采访”则提供了一种不同的认识论价值:它不追求预测准确性,而是追求揭示偏差的可见性。当泰勒的AI Kyle反复援引公开发表的优先级框架,而真实Kyle在后来的回应中说“模拟过度索引了我的书面作品”时,我们看到了两层揭示——AI暴露了自己对公开材料的依赖,Kyle则暴露了他认为的“更真实的自己”并不在这些材料里。
1984年,哲学家唐娜·哈拉维提出“情境化知识”概念:所有知识都来自特定的视角和位置,没有“来自无处”的客观视角。双重AI模拟让这个抽象的哲学命题变得可操作——它让我们同时看到两个版本的“Kyle”(公开记录中的观点集合 vs 活生生的实践者),以及两个版本的“预期”(泰勒预测的Kyle vs Kyle预测的泰勒预测)。这不是在寻找真相,而是在绘制视角的地形图。
Aha瞬间
“当采访者和受访者都在用AI模拟对方时,他们不是在下棋——他们是在建立一个共同的透镜系统,让每个人都能看到对方眼中的‘我应该是什么样’,以及自己实际是什么样。”
你的思考空间
- 如果AI模拟的最大价值在于暴露知识空白区,我们是否应该重新设计AI评估体系——不再以准确率为单一指标,而是引入“空白区发现率”作为衡量标准?
- 当你发现自己的AI分身反复依赖某个你最引以为豪的思想框架时,这是否意味着那个框架已经成为你的认知牢笼,而非你的思想资产?
- 在高度竞争的情境中(面试、谈判、合作),如果双方都使用AI预判对方的预判,最终的博弈达到何种均衡状态——是更坦诚(因为无法隐藏),还是更表演化(因为都在优化对方的预期)?
- 文章提到“人类更愿意接受机器人的批评”,这个效应如果被资本或权力系统利用,是否会使AI扮演“不会引起反感的规训者”角色——这不是更危险,因为它的反馈永远不会被质疑?