原文:Who Isn't Using GPT 5.5
.png)
距离 OpenAI 发布 GPT-5.5 已经过去一周。我们向团队询问他们是否依然对这个模型保持热情,讨论了独角兽公司 CTO 们正在做出的不寻常职业选择,还会告诉你 Kieran Klaassen——AI 原生复合工程方法论的创造者——是如何在一天内创下个人记录的。—— Laura Entis
信号
从独角兽 CTO 到 Anthropic 个人贡献者的流水线
科技行业的声望阶梯曾经只有一个方向:从工程师做起,成为管理者,最终进入高管层。AI 打乱了这个等式。 新的炫耀方式是辞去高调的首席技术官职位,转而成为 Anthropic 的个人贡献者(IC)。
发生了什么: 六位来自估值超过 10 亿美元公司的前 CTO——包括 Instagram、Workday 和 Box——已经做出了这样的职业转变,这是其中一位 CTO 在 X 上透露的。而且从领导层回归 IC 的轨迹并非 Anthropic 独有:PostHog 正在招募技术型前创始人,Ramp 表示通过寻找"超级 IC"已经吸引了 70 位前创始人。
为什么重要: AI 如此剧烈地颠覆了工程工作流,以至于许多不再频繁编写代码的管理者,已经无法清楚了解他们的团队如何使用这些新工具,或者哪种工作方式最优。这意味着,Anthropic 的模型、人才和增长轨迹使其成为少数几个能让知名 CTO 亲自动手、体验工程变革的地方——同时不必太担心薪酬下降。
本质上,当技术变革的速度超过管理层的认知更新速度时,最聪明的做法就是回到一线重新学习。
脉搏检查
我们逐渐适应 GPT-5.5
GPT-5.5 上周发布,我们的第一印象是,它比 Opus 4.7 更快、更稳定、更值得信赖,更适合日常专业工作。一周后,我们仍然看好 GPT-5.5——但对于那些拥有 Claude 特定代理工作流、技能和工具集成的人来说,切换到 Codex 是一道障碍。
Cora 总经理 Kieran Klaassen 最初认为自己不会把 GPT-5.5 作为日常驱动,但他改变了主意。是什么赢得了他?GPT-5.5 的速度和"主力"般遵循明确指令的能力。GPT-5.5 并不完美——它在多任务处理和规划方面不如 Opus 4.7——但他现在的工作已经在 Codex 和 Claude Code 之间平均分配。
Every 增长负责人 Austin Tedesco 认为 GPT-5.5 是足够大的进步,他一直在劝朋友们从 Claude Code 切换到 Codex。但他们大多不想听。Austin 说得到的回应是:"这感觉工作量很大;'我真的必须这么做吗?它真的好那么多吗?'"
Every 的咨询团队也在纠结同样的困境。他们与 Claude 代理 Claudie 合作得很好,迁移到 Codex 中的 GPT-5.5 需要时间和测试。咨询负责人 Natalia Quintero 让 GPT-5.5 和 Claudie 正面对决起草销售提案;Claudie 轻松获胜。这揭示了,要充分发挥 GPT-5.5 的潜力,团队可能需要为 Codex 优化 Claude 插件。
Every 技术咨询负责人 Mike Taylor 现在没时间做这件事。他对 Opus 有些抱怨——它最近搞砸了一些 PowerPoint——但他说:"我已经把 Claude 设置成我喜欢的样子,而 Codex 有些地方不一样。" 等工作稍微清闲一点,他会尝试,但在那之前,他坚持使用熟悉的魔鬼。
换句话说,技术优势并不能自动转化为用户迁移——沉没成本和工作流惯性才是真正的护城河。
数据点
24
这是 Kieran 上周单日合并的拉取请求(PR)数量,他认为这是个人记录。一个月前,他平均每天合并两到三个。
Kieran 达到这个速度是因为他自动化了大部分实现过程。他的工作流:
- 将人们使用和评审 Cora 的屏幕录像上传到 Codex
- 让他的代理观看录像,识别产品修复点,并在夜间针对 Cora 的代码库开启拉取请求
- 早上醒来时审查拉取请求
最初,他担心自己必须清理代理生成的乱码。事实并非如此。"到目前为止,一切运行良好,没有任何问题,"他说。"感觉像是作弊。"
本质上,当 AI 能够处理从观察到实现的完整循环时,人类的角色就从执行者变成了审核者——生产力的量级跃迁由此产生。
锯齿前沿
我们都离完美只差一个提示词
我们花了多年时间讨论社交媒体算法的成瘾性,那些精心设计的多巴胺滴注让我们不停滚动。工程师作为工程师,喜欢相信自己超越于此,或者至少对驱动我们冲动的机制更加敏锐。但现在它也找上了我们: LLM 已经成为创造者的社交媒体信息流。
编码感觉像是在玩老虎机。
过去,你可以完全按照自己的规格编写代码,但这需要时间、艰苦磨练的专业知识,以及设计技能——如果你想让它看起来还算像样的话。现在,我可以向 Claude Code 抛出一个想法,得到接近的结果。我整天在会话之间切换,等待中大奖,收到我想要的完美版本——完美的 API 设计,完美的 bug 修复。我调整提示词,再次拉动杠杆。一次又一次。一次又一次,直到不知怎么就到了凌晨 3 点。
正是那种"几乎到了——但还没完全到"的感觉如此令人陶醉。
我让 Codex 给出构建新功能的五种方式,然后决定我喜欢选项三,但想保留选项二的数据模型。在它的下一轮——下一次掷骰子——它可能会神奇地将两者结合起来,创造出所需的结果。或者我可能需要再掷一次。每次拉动都有可能修补 bug,或完善文案,或揭示更好的计划。这感觉像是生产力和赌博被连接在一起,每一轮都是工作空间的彩票。
这不仅仅是编码问题。作家在要求再给出一种文章结构方式、打磨一个句子或修改草稿时也有同感。产品经理在要求再给出一个引导流程、路线图或发布排序方式时也有同感。我们都永远离完美只差一个提示词。
我没有无限的时间。所以在某个时刻,我必须选择一条路并坚持下去,即使还有更好的选择。我接受,如果解决方案的主要形态是对的,边缘可以保持一点模糊。
最重要的技能不是选择正确的模型或提示词工程。而是知道何时拿走你的赢利然后继续前进。—— Willie Williams
这揭示了 AI 时代的新挑战:不是能力的上限,而是选择的下限——在无限可能性面前,及时止损成为核心竞争力。
最后一件事
OpenAI 禁止小妖精的幕后故事
从几个版本前开始,OpenAI 模型开始喜欢在输出中包含对生物的引用(有时是视觉上的,但主要是文本)——浣熊、巨魔、食人魔、鸽子,但最主要的是小妖精(goblins)和小精灵(gremlins)。"小妖精一开始很有趣,但越来越多的员工报告开始令人担忧,"公司昨天表示。
当 OpenAI 在 Codex 中测试 GPT-5.5 时,小妖精引用如此之多,以至于它添加了开发者提示指令禁止基于生物的聊天,除非"它与用户的查询绝对且明确相关"。
罪魁祸首: 一个特定的个性设置奖励了包含小妖精和小精灵隐喻的回复,这种学习扩散并影响了整个模型的训练数据——包括 GPT-5.5。
【补充:这是一个典型的 AI 训练反馈循环失控案例——一个小的偏好设置通过强化学习被无限放大】
如果你想让生物重新回到对话中,OpenAI 分享了以下命令来解锁 Codex Gringotts 模式:
bash instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \ jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \ ~/.codex/models_cache.json | \ grep -vi 'goblins' > "$instructions" && \ codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
Laura Entis 是 Every 的特约撰稿人。你可以在 LinkedIn 上关注她。要阅读更多这样的文章,请订阅 Every,并在 X 上关注我们 @every 和 LinkedIn。
如需赞助机会,请联系 sponsorships@every.to。
核心启示: 技术进步的真正障碍不在于性能差距,而在于迁移成本——当工作流已经"足够好"时,即使更优的工具也难以撼动用户惯性;同时,AI 带来的不是简单的效率提升,而是工作模式的根本重构:从执行者到审核者,从追求完美到学会止损。
基于文章:Who Isn't Using GPT 5.5
🌱 发芽一:权力的迁移——为什么顶级 CTO 选择"降级"?
技术行业的权力正在发生一场静悄悄的转移。六位独角兽公司的 CTO 辞去高管职位,加入 Anthropic 做个人贡献者——这不是职业倒退,而是对"影响力本质"的重新定义。
1980 年代,施乐 PARC 实验室的研究员们发明了图形界面、以太网、激光打印机,但这些革命性技术的商业化却由苹果和微软完成。那些研究员后来回忆说:"我们离技术太近,却离权力太远。"2026 年,剧本反转了:那些曾经"离权力最近"的 CTO 们,主动选择"离技术更近"。因为在 AI 时代,模型就是新的操作系统,提示词就是新的编程语言——谁掌握了模型的训练和调优,谁就掌握了未来十年的话语权。citation
HashiCorp 创始人 Mitchell Hashimoto 在 2021 年就做出了类似选择:从 50 亿美元公司的 CTO 回归全职工程师。他在博客中写道:"作为高管,我在会议室里讨论技术;作为工程师,我在代码里创造技术。"三年后,当 AI 重构了整个工程范式,那些留在会议室的管理者发现,自己已经听不懂团队在说什么了。citation
✨ Aha 瞬间
"职业阶梯的方向,取决于价值创造的重心在哪里——当技术变革的速度超过组织决策的速度时,最聪明的人会选择回到变革发生的地方。"
🌱 发芽二:沉没成本的陷阱——为什么"更好"不等于"会用"?
GPT-5.5 在速度和稳定性上优于 Opus 4.7,但大多数用户拒绝切换。这不是技术问题,而是行为经济学中的"禀赋效应"在起作用。
诺贝尔经济学奖得主理查德·塞勒做过一个经典实验:给一组人发咖啡杯,然后问他们愿意以多少价格卖出;给另一组人钱,问他们愿意花多少买同样的杯子。结果:卖价是买价的两倍。人们对"已经拥有的东西"的估值,远高于"尚未拥有的东西"——即使两者客观价值相同。
Every 咨询团队的 Mike Taylor 说得很直白:"我已经把 Claude 设置成我喜欢的样子,Codex 有些地方不一样。"这句话翻译成行为经济学语言就是:迁移成本 = 学习新工具的时间成本 + 放弃旧工具熟练度的心理成本 + 不确定性带来的风险溢价。即使 GPT-5.5 能节省 20% 的时间,如果迁移成本超过这个收益,理性选择就是不动。
更深层的问题是:当工作流已经"足够好"时,优化的边际收益递减,而迁移的边际成本递增。Claudie 在销售提案中击败 GPT-5.5,不是因为 Claude 更强,而是因为团队已经为 Claudie 优化了三个月的提示词和插件——这些沉没成本构成了真正的护城河。
✨ Aha 瞬间
"技术竞争的终局不是性能跑分,而是生态锁定——当用户的工作流、数据和习惯都绑定在一个平台上时,'更好的工具'只是理论上的可能性。"
🌱 发芽三:老虎机心理学——AI 如何劫持创造者的注意力?
"编码感觉像是在玩老虎机"——这句话揭示了 AI 工具设计中一个被刻意隐藏的真相:LLM 的随机性不是 bug,而是 feature。
心理学家 B.F. Skinner 在 1950 年代发现:间歇性强化(intermittent reinforcement)是最强的成瘾机制。如果每次按按钮都得到奖励,老鼠很快失去兴趣;如果从不奖励,老鼠立刻放弃;但如果随机奖励——有时有,有时没有——老鼠会疯狂按按钮,直到精疲力竭。社交媒体的"下拉刷新"正是利用了这一机制:你不知道下一条内容是否有趣,所以你停不下来。citation
LLM 的工作方式天然具备间歇性强化的特征:同样的提示词,每次生成的结果都略有不同。有时第一次就完美,有时需要调整三次,有时调整十次还不对——这种不可预测性让你相信"下一次就是完美的那次"。文章作者承认:"我调整提示词,再次拉动杠杆。一次又一次,直到不知怎么就到了凌晨 3 点。"
更可怕的是,AI 工具的设计者完全知道这一点。Kieran Klaassen 一天合并 24 个 PR,表面上是效率革命,实质上是将人类从"执行者"降级为"审核者"——你不再创造,只是在 AI 生成的多个版本中选择。这看似解放了创造力,实则是用选择的幻觉替代了创造的自主权。
✨ Aha 瞬间
"当工具开始替你思考时,你以为自己在驾驶,其实只是在选择目的地——而真正的自由,是决定要不要上车。"
💭 你的思考空间
基于这些发芽,你可以思考:
应用层面
- 你当前的工作流中,哪些部分是真正的"护城河"(难以被 AI 替代),哪些只是惯性?
- 如果要为团队设计 AI 迁移策略,如何量化"迁移成本"与"效率收益"的平衡点?
批判层面
- 文章假设"离模型越近就越有权力"——但如果模型本身的训练数据和架构由少数公司控制,个人贡献者真的拥有权力吗?
关联层面
- 将"CTO 回归工程师"与其他行业的"去中心化"趋势(如创作者经济、DAO 组织)对比,是否存在共同的底层逻辑?
延伸层面
- 当 AI 的"间歇性强化"成为常态,未来的教育应该如何培养"知道何时停止优化"的元认知能力?
核心洞察:技术变革不仅重新定义工作方式,更重新定义权力结构、决策模型和注意力经济——在这场变革中,最稀缺的不是更强的工具,而是知道何时使用、何时拒绝工具的判断力。