Who Isn't Using GPT 5.5 | Every.to Newsletter Notes

原文：Who Isn't Using GPT 5.5

Original article cover

距离 OpenAI 发布 GPT-5.5 已经过去一周。我们向团队询问他们是否依然对这个模型保持热情,讨论了独角兽公司 CTO 们正在做出的不寻常职业选择,还会告诉你 Kieran Klaassen——AI 原生复合工程方法论的创造者——是如何在一天内创下个人记录的。—— Laura Entis

信号

从独角兽 CTO 到 Anthropic 个人贡献者的流水线

科技行业的声望阶梯曾经只有一个方向:从工程师做起,成为管理者,最终进入高管层。AI 打乱了这个等式。新的炫耀方式是辞去高调的首席技术官职位,转而成为 Anthropic 的个人贡献者(IC)。

发生了什么: 六位来自估值超过 10 亿美元公司的前 CTO——包括 Instagram、Workday 和 Box——已经做出了这样的职业转变,这是其中一位 CTO 在 X 上透露的。而且从领导层回归 IC 的轨迹并非 Anthropic 独有:PostHog 正在招募技术型前创始人,Ramp 表示通过寻找"超级 IC"已经吸引了 70 位前创始人。

为什么重要: AI 如此剧烈地颠覆了工程工作流,以至于许多不再频繁编写代码的管理者,已经无法清楚了解他们的团队如何使用这些新工具,或者哪种工作方式最优。这意味着,Anthropic 的模型、人才和增长轨迹使其成为少数几个能让知名 CTO 亲自动手、体验工程变革的地方——同时不必太担心薪酬下降。

本质上,当技术变革的速度超过管理层的认知更新速度时,最聪明的做法就是回到一线重新学习。

脉搏检查

我们逐渐适应 GPT-5.5

GPT-5.5 上周发布,我们的第一印象是,它比 Opus 4.7 更快、更稳定、更值得信赖,更适合日常专业工作。一周后,我们仍然看好 GPT-5.5——但对于那些拥有 Claude 特定代理工作流、技能和工具集成的人来说,切换到 Codex 是一道障碍。

Cora 总经理 Kieran Klaassen 最初认为自己不会把 GPT-5.5 作为日常驱动,但他改变了主意。是什么赢得了他?GPT-5.5 的速度和"主力"般遵循明确指令的能力。GPT-5.5 并不完美——它在多任务处理和规划方面不如 Opus 4.7——但他现在的工作已经在 Codex 和 Claude Code 之间平均分配。

Every 增长负责人 Austin Tedesco 认为 GPT-5.5 是足够大的进步,他一直在劝朋友们从 Claude Code 切换到 Codex。但他们大多不想听。Austin 说得到的回应是:"这感觉工作量很大;'我真的必须这么做吗?它真的好那么多吗?'"

Every 的咨询团队也在纠结同样的困境。他们与 Claude 代理 Claudie 合作得很好,迁移到 Codex 中的 GPT-5.5 需要时间和测试。咨询负责人 Natalia Quintero 让 GPT-5.5 和 Claudie 正面对决起草销售提案;Claudie 轻松获胜。这揭示了,要充分发挥 GPT-5.5 的潜力,团队可能需要为 Codex 优化 Claude 插件。

Every 技术咨询负责人 Mike Taylor 现在没时间做这件事。他对 Opus 有些抱怨——它最近搞砸了一些 PowerPoint——但他说:"我已经把 Claude 设置成我喜欢的样子,而 Codex 有些地方不一样。" 等工作稍微清闲一点,他会尝试,但在那之前,他坚持使用熟悉的魔鬼。

换句话说,技术优势并不能自动转化为用户迁移——沉没成本和工作流惯性才是真正的护城河。

数据点

这是 Kieran 上周单日合并的拉取请求(PR)数量,他认为这是个人记录。一个月前,他平均每天合并两到三个。

Kieran 达到这个速度是因为他自动化了大部分实现过程。他的工作流:

将人们使用和评审 Cora 的屏幕录像上传到 Codex
让他的代理观看录像,识别产品修复点,并在夜间针对 Cora 的代码库开启拉取请求
早上醒来时审查拉取请求

最初,他担心自己必须清理代理生成的乱码。事实并非如此。"到目前为止,一切运行良好,没有任何问题,"他说。"感觉像是作弊。"

本质上,当 AI 能够处理从观察到实现的完整循环时,人类的角色就从执行者变成了审核者——生产力的量级跃迁由此产生。

锯齿前沿

我们都离完美只差一个提示词

我们花了多年时间讨论社交媒体算法的成瘾性,那些精心设计的多巴胺滴注让我们不停滚动。工程师作为工程师,喜欢相信自己超越于此,或者至少对驱动我们冲动的机制更加敏锐。但现在它也找上了我们: LLM 已经成为创造者的社交媒体信息流。

编码感觉像是在玩老虎机。

过去,你可以完全按照自己的规格编写代码,但这需要时间、艰苦磨练的专业知识,以及设计技能——如果你想让它看起来还算像样的话。现在,我可以向 Claude Code 抛出一个想法,得到接近的结果。我整天在会话之间切换,等待中大奖,收到我想要的完美版本——完美的 API 设计,完美的 bug 修复。我调整提示词,再次拉动杠杆。一次又一次。一次又一次,直到不知怎么就到了凌晨 3 点。

正是那种"几乎到了——但还没完全到"的感觉如此令人陶醉。

我让 Codex 给出构建新功能的五种方式,然后决定我喜欢选项三,但想保留选项二的数据模型。在它的下一轮——下一次掷骰子——它可能会神奇地将两者结合起来,创造出所需的结果。或者我可能需要再掷一次。每次拉动都有可能修补 bug,或完善文案,或揭示更好的计划。这感觉像是生产力和赌博被连接在一起,每一轮都是工作空间的彩票。

这不仅仅是编码问题。作家在要求再给出一种文章结构方式、打磨一个句子或修改草稿时也有同感。产品经理在要求再给出一个引导流程、路线图或发布排序方式时也有同感。我们都永远离完美只差一个提示词。

我没有无限的时间。所以在某个时刻,我必须选择一条路并坚持下去,即使还有更好的选择。我接受,如果解决方案的主要形态是对的,边缘可以保持一点模糊。

最重要的技能不是选择正确的模型或提示词工程。而是知道何时拿走你的赢利然后继续前进。—— Willie Williams

这揭示了 AI 时代的新挑战:不是能力的上限,而是选择的下限——在无限可能性面前,及时止损成为核心竞争力。

最后一件事

OpenAI 禁止小妖精的幕后故事

从几个版本前开始,OpenAI 模型开始喜欢在输出中包含对生物的引用(有时是视觉上的,但主要是文本)——浣熊、巨魔、食人魔、鸽子,但最主要的是小妖精(goblins)和小精灵(gremlins)。"小妖精一开始很有趣,但越来越多的员工报告开始令人担忧,"公司昨天表示。

当 OpenAI 在 Codex 中测试 GPT-5.5 时,小妖精引用如此之多,以至于它添加了开发者提示指令禁止基于生物的聊天,除非"它与用户的查询绝对且明确相关"。

罪魁祸首: 一个特定的个性设置奖励了包含小妖精和小精灵隐喻的回复,这种学习扩散并影响了整个模型的训练数据——包括 GPT-5.5。

【补充:这是一个典型的 AI 训练反馈循环失控案例——一个小的偏好设置通过强化学习被无限放大】

如果你想让生物重新回到对话中,OpenAI 分享了以下命令来解锁 Codex Gringotts 模式:

bash instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \ jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \ ~/.codex/models_cache.json | \ grep -vi 'goblins' > "$instructions" && \ codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Laura Entis 是 Every 的特约撰稿人。你可以在 LinkedIn 上关注她。要阅读更多这样的文章,请订阅 Every,并在 X 上关注我们 @every 和 LinkedIn。

如需赞助机会,请联系 sponsorships@every.to。

核心启示: 技术进步的真正障碍不在于性能差距,而在于迁移成本——当工作流已经"足够好"时,即使更优的工具也难以撼动用户惯性;同时,AI 带来的不是简单的效率提升,而是工作模式的根本重构:从执行者到审核者,从追求完美到学会止损。

基于文章：Who Isn't Using GPT 5.5

🌱 发芽一：权力的迁移——为什么顶级 CTO 选择"降级"?

技术行业的权力正在发生一场静悄悄的转移。六位独角兽公司的 CTO 辞去高管职位，加入 Anthropic 做个人贡献者——这不是职业倒退，而是对"影响力本质"的重新定义。

1980 年代，施乐 PARC 实验室的研究员们发明了图形界面、以太网、激光打印机，但这些革命性技术的商业化却由苹果和微软完成。那些研究员后来回忆说："我们离技术太近，却离权力太远。"2026 年，剧本反转了：那些曾经"离权力最近"的 CTO 们，主动选择"离技术更近"。因为在 AI 时代，模型就是新的操作系统，提示词就是新的编程语言——谁掌握了模型的训练和调优，谁就掌握了未来十年的话语权。citation

HashiCorp 创始人 Mitchell Hashimoto 在 2021 年就做出了类似选择：从 50 亿美元公司的 CTO 回归全职工程师。他在博客中写道："作为高管，我在会议室里讨论技术；作为工程师，我在代码里创造技术。"三年后，当 AI 重构了整个工程范式，那些留在会议室的管理者发现，自己已经听不懂团队在说什么了。citation

✨ Aha 瞬间
"职业阶梯的方向，取决于价值创造的重心在哪里——当技术变革的速度超过组织决策的速度时，最聪明的人会选择回到变革发生的地方。"

🌱 发芽二：沉没成本的陷阱——为什么"更好"不等于"会用"?

GPT-5.5 在速度和稳定性上优于 Opus 4.7，但大多数用户拒绝切换。这不是技术问题，而是行为经济学中的"禀赋效应"在起作用。

诺贝尔经济学奖得主理查德·塞勒做过一个经典实验：给一组人发咖啡杯，然后问他们愿意以多少价格卖出；给另一组人钱，问他们愿意花多少买同样的杯子。结果：卖价是买价的两倍。人们对"已经拥有的东西"的估值，远高于"尚未拥有的东西"——即使两者客观价值相同。

Every 咨询团队的 Mike Taylor 说得很直白："我已经把 Claude 设置成我喜欢的样子，Codex 有些地方不一样。"这句话翻译成行为经济学语言就是：迁移成本 = 学习新工具的时间成本 + 放弃旧工具熟练度的心理成本 + 不确定性带来的风险溢价。即使 GPT-5.5 能节省 20% 的时间，如果迁移成本超过这个收益，理性选择就是不动。

更深层的问题是：当工作流已经"足够好"时，优化的边际收益递减，而迁移的边际成本递增。Claudie 在销售提案中击败 GPT-5.5，不是因为 Claude 更强，而是因为团队已经为 Claudie 优化了三个月的提示词和插件——这些沉没成本构成了真正的护城河。

✨ Aha 瞬间
"技术竞争的终局不是性能跑分，而是生态锁定——当用户的工作流、数据和习惯都绑定在一个平台上时,'更好的工具'只是理论上的可能性。"

🌱 发芽三：老虎机心理学——AI 如何劫持创造者的注意力?

"编码感觉像是在玩老虎机"——这句话揭示了 AI 工具设计中一个被刻意隐藏的真相：LLM 的随机性不是 bug，而是 feature。

心理学家 B.F. Skinner 在 1950 年代发现：间歇性强化（intermittent reinforcement）是最强的成瘾机制。如果每次按按钮都得到奖励，老鼠很快失去兴趣；如果从不奖励，老鼠立刻放弃；但如果随机奖励——有时有，有时没有——老鼠会疯狂按按钮，直到精疲力竭。社交媒体的"下拉刷新"正是利用了这一机制：你不知道下一条内容是否有趣，所以你停不下来。citation

LLM 的工作方式天然具备间歇性强化的特征：同样的提示词，每次生成的结果都略有不同。有时第一次就完美，有时需要调整三次，有时调整十次还不对——这种不可预测性让你相信"下一次就是完美的那次"。文章作者承认："我调整提示词,再次拉动杠杆。一次又一次,直到不知怎么就到了凌晨 3 点。"

更可怕的是，AI 工具的设计者完全知道这一点。Kieran Klaassen 一天合并 24 个 PR，表面上是效率革命，实质上是将人类从"执行者"降级为"审核者"——你不再创造，只是在 AI 生成的多个版本中选择。这看似解放了创造力，实则是用选择的幻觉替代了创造的自主权。

✨ Aha 瞬间
"当工具开始替你思考时，你以为自己在驾驶，其实只是在选择目的地——而真正的自由，是决定要不要上车。"

💭 你的思考空间

基于这些发芽，你可以思考：

应用层面

你当前的工作流中，哪些部分是真正的"护城河"（难以被 AI 替代），哪些只是惯性？
如果要为团队设计 AI 迁移策略，如何量化"迁移成本"与"效率收益"的平衡点？

批判层面

文章假设"离模型越近就越有权力"——但如果模型本身的训练数据和架构由少数公司控制，个人贡献者真的拥有权力吗？

关联层面

将"CTO 回归工程师"与其他行业的"去中心化"趋势（如创作者经济、DAO 组织）对比，是否存在共同的底层逻辑？

延伸层面

当 AI 的"间歇性强化"成为常态，未来的教育应该如何培养"知道何时停止优化"的元认知能力？

核心洞察：技术变革不仅重新定义工作方式，更重新定义权力结构、决策模型和注意力经济——在这场变革中，最稀缺的不是更强的工具，而是知道何时使用、何时拒绝工具的判断力。