Codex 实战:Every 团队如何将这款智能工作区融入日常工作
在切入 Codex 正题之前,有一件事必须先说:Anthropic 的“神话级”模型 Fable 5 即将回归,预计今天就恢复访问。Every 的技术咨询负责人 Mike Taylor 正在AI 工程师世界博览会现场,Anthropic 的 Thariq Shihipar 刚刚发表了一场题为“Fable 实地指南”的主题演讲。用 Every 作者 Katie Parrott 的话来说,“我们漫长的全国噩梦终于要结束了。”
为迎接 Fable 5 的恢复访问,你可以先看看我们的 Fable 5 提示词库,并密切关注这里:一旦 Fable 5 重新上线,Every 团队将举办一场直播工作会,探讨如何发挥这款模型的最大价值。
如果你还在琢磨从何处着手使用 Fable,可以试试这个发现提示词,找出值得 Fable 出手的任务,并把结果发给我们:@every on X。我们会在直播中演示一些精选案例。
Codex 没有唯一的正确用法。这个智能体工作区(agentic workspace)足够聪明、足够灵活,能根据你的目标和偏好的工作方式来调整自身。这种灵活性赋予了 Codex 强大的能力,但也可能让新手在上手时感到不知所措——如果 Codex 什么都能做,那该从哪儿开始?
在 Every,我们发现,对于任何工具或平台,这个问题的最佳答案都来自观察团队成员具体、实际的使用方式。正因如此,本期 Context Window 专门聚焦于 Codex 的实战用例。首先,在最新一期的 AI & I 播客中,咨询主管 Natalia Quintero 详细介绍了她如何用这款应用处理一切事务,从实现收件箱清零到管理父亲的医疗护理。CEO Dan Shipper、Katie Parrott、增长主管 Austin Tedesco 和 Cora 总经理 Kieran Klaassen 也分享了他们的 Codex 配置,以及使用这款应用的核心理念。
“AI & I”:Codex 赋能非技术背景的构建者
今天,我们发布了一期新的 AI & I 节目。在这期节目中,咨询主管 Natalia Quintero 向 Dan 展示了这款应用如何帮她管理工作和个人事务。作为 Codex 的新晋用户,她说,“Codex 改变了我的人生。”
在 X 或 YouTube 上观看,或在 Spotify、Apple Podcasts 上收听。你也可以阅读文字稿。
以下是几个核心要点:
Codex 是低摩擦版的 Claude Code。 Natalia 过去在 Claude Code 中花费大量时间搭建文件夹结构和文件系统。但在 Codex 中,她无需再做类似的繁琐设置,因为应用会在协作过程中自行构建这些。“我不需要太专注于把事情架构得完美——那确实是一种技能,也是我们的工程师极为擅长的事情。我只需信任它能做出好的决策,为我构建解决方案,”她说。在实际操作中,Natalia 会打开当天优先处理的 Codex 项目,然后直接开始工作,并相信 Codex 会相应地更新项目。
Codex 像一个直属下属。 与 Claude Code——或者一名人类员工——类似,Codex 需要正确的上下文才能出色地完成任务。一个近期的例子:Natalia 当时在使用 Attio,这是 Every 咨询团队用来管理入库线索、客户关系和销售管道(sales pipeline)的 CRM 工具。她的提示词本质上是“设置我的 CRM,使其准确反映我与现有和潜在客户之间邮件及对话的情况。”因为 Codex 能够访问她的收件箱、会议记录和销售管道逻辑,它能在她睡觉时自动补全数百条客户和潜在客户记录。“我醒来时,面对的是一个完全设置好的 CRM——这些工作原本需要数周才能完成,”她说。“这就是 AI 带来的那种快乐和愉悦时刻,我的生活质量也因此得到了提升。”
Codex 是一种帮助照护亲人的方式。 Natalia 的父亲有多名护士支持他的护理,这意味着她需要管理诸多医疗预约、跟进方案以及来自医疗服务提供者和家庭成员的信息流。“Codex 帮我创建了一个操作系统,让我们作为一家人能够对父亲的护理进行分诊(triage),”她说。这款应用给了她一个中心化场所来跟踪所有事项,而不是让她花大量时间在散乱的聊天记录中翻找。“Codex 让消化所有这些信息变得非常容易,在一个地方就能完成,也让我们能以自己最擅长的方式支持父亲——那就是作为他的家人,给予陪伴和关爱。”
Every 团队其他成员如何使用 Codex
如果你一直在关注我们的报道——或者 Dan 的 X 账号——就会知道我们对 Codex 有多好已经赞不绝口。事到如今,我们凡事都会求助它,从工程到写作再到运营。而且,正如我们每个人所做的具体工作都不同,团队里没有哪两个人的使用方式是完全一样的。
在一场两小时的线上集训营中,CEO Dan Shipper、作者 Katie Parrott、增长主管 Austin Tedesco 和 Cora 总经理 Kieran Klaassen 详细拆解了他们各自独特的配置和用例。以下是他们每个 Codex 工作区的样貌,以及如果你想要借鉴他们的方法来启动自己的工作区,可以参考的示例提示词。
Dan 的长线程策略
Dan 的工作方法围绕一个简单的原则展开:当 Codex 能够访问_你_完成任务所需的所有信息时,它才最有价值。他的设置包含两个主要部分。
第一部分是长线程(long-running threads),即与智能体建立的聊天工作区。因为它们不会在两次会话之间重置,所以能保留整个工作流程的历史记录,包括目的、关键参与者和相关事件。Dan 为处理邮件、审查 Slack 和会议记录以获取可能遗漏的更新以及招聘等周期性任务,都设立了专属的长线程。
第二部分则利用了 Codex 的应用内浏览器(in-app browser)——这是 Codex 内置的一个浏览器,在任务需要实时网页上下文时,让 Dan 和智能体能够一起使用网站。Codex 可以自行审查网页并点击操作来完成工作,而无需 Dan 把所有信息都转化为指令。
长线程和应用内浏览器的结合是威力巨大的。对于编码工作,这意味着智能体在构建或调试时可以检查并直接与实时用户界面交互。对于知识型工作,则意味着 Dan 和 Codex 可以查看同一个浏览器页面、收件箱、文档或应用,而无需 Dan 来回粘贴上下文信息。
为了处理来自他人的外部请求——这些请求可能会打乱他自己的优先级流程——Dan 使用了一个路由线程(router thread),这是一个指定的编排线程,负责对信息进行分类并将任务委派给合适的子线程。他给了 Codex 一个专属的电子邮箱地址(用他自己搭建的一个名叫 Mailroom 的小工具),路由线程每隔几分钟就会检查一次这个收件箱,读取每条新请求,并将其发送到最适合处理的长期 Codex 线程中。一个关于合同的问题可能会被发送到存有法律背景的线程;一个权限请求则可能会被发送到能处理内部运营的线程。
以下是用于启动 Dan 工作方法的提示词:
请帮我为我的周期性工作领域设计三个长期运行的 Codex 线程。
首先,就那些定期需要我关注的工作流对我进行采访。
然后提出以下建议:
- 如何定义每个线程的目的
- 每个线程应监控哪些信息源
- 哪些类型的请求应被路由到该线程
- Codex 可以代我起草或准备的行动事项
- 需要我明确批准的行动事项
- 一个用于审查输出的策略方案
最后,为每个线程起草起始指令,以及一套用于决定新请求去向的简单路由规则。
Katie 的文件系统
在发现 Codex 的魔力之前,Katie 就是 Claude Code 的资深用户,维护着一个精心搭建的本地嵌套文件和文件夹系统。她在 Codex 中创建了类似的东西,并且和 Natalia 一样,发现这个过程更快、更少依赖手动操作:她不是自己去搭建系统,而是让 Codex 采访她,了解她的角色、写作风格和工作偏好,以便 Codex 能代为构建一个对智能体更友好的系统。
最终生成的是一个名为“Katie Context”的本地文件夹,充当指挥中心。它包含以下内容:
- 一个 AGENTS.md 文件,Codex 将其视为文件夹其余部分的目录
- 一个身份文件,解释 Katie 是谁以及她从事的项目类型
- 关于 Codex 应如何产出和封装输出的偏好设置,包括一项常设指令:当某个内容需要对外分享时,创建一个 Proof 文档
- 一份不断更新的“切勿这样做”指令清单,防止 Codex 重复已知的错误
- 一个项目地图,列出她工作的每个领域——专栏、指南、自动化和工作流——以及 Codex 处理每个领域时应用到的相关文件、文件夹和指令
- 一个 Voice.md 文件,其中包含关于她写作风格的指导、她偏好的语言,以及她希望 Codex 使用的语调
在建立起这个优化好的设置之后,Katie 转而将她的潜在故事点子的聚合、记录和组织方式自动化,以便在需要动笔时,一切已准备就绪。为此,她让 Codex 为她的双周专栏 Working Overtime 创建了一个“点子农场”。她的第一个提示词很简单:“我想在文件夹里创建一个点子农场文档,并开始监控 [Slack 频道],为 Working Overtime 专栏储备内容创意。” Codex 创建了一个跟踪器,解释了其用途,并依据一个基于她写作风格和报道领域的评分标准来评估点子,对其进行打分,并添加编辑笔记。
以下是用于启动 Katie 工作方法的提示词:
请帮我为我的一个周期性工作领域创建一个本地上下文文件夹。
首先,采访我关于以下内容:
- 这个工作领域涉及哪些方面
- 我定期会产出哪些类型的成果
- 相关的原始资料存放在哪里
- 我希望草稿、笔记和可分享文档以何种方式产出
- 我希望智能体避免哪些错误或习惯
- 哪些语音、语调或风格偏好是重要的
然后,提出一个文件夹结构方案,包括:
- 一个 AGENTS.md 文件,解释如何使用该文件夹
- 一个关于我角色和职责的身份文件
- 一个关于输出应如何创建的偏好设置文件
- 一个包含护栏规则和反向偏好的规则文件
- 一个列出活跃项目及其相关文件的项目地图
- 一个关于写作风格、语调和语言偏好的语音文件
之后,为这个工作领域创建一个点子跟踪器。包括:
- 对跟踪器用途的简要说明
- 一个评估点子的评分标准
- 一个评分系统
- 每个点子的就绪状态
- 关于每个点子下一步需要什么的编辑笔记
- 关于哪些新信息应当随时间积累而保存下来的指令
Austin 的“结果导向”工作法
Austin 的配置刻意保持轻量。他有几个会定期回顾的 Codex 聊天,包括一个用于市场进入(go-to-market)工作的和一个用于社交媒体的,但他尽量把结构保持在最简。“我天生就不是一个很有条理的人,”他说,“而且我不想花任何时间来变得有条理。”
他的策略是直接给 Codex 一个期望的结果,将它连接到相关信息源,然后放手让它工作。为了给 Every 的线上活动创建后续内容,他会把记录、聊天内容、录音以及一段通过 Monologue 做的脑力倾泻(brain dump)投喂进去,说明后续内容包应包含什么,然后要求 Codex 在 Notion 和 Slack 中搜索额外背景信息,构建一个包含所有引用资源的 GitHub 仓库,并起草后续邮件。
一旦 Codex 产出第一个版本,Austin 会进行审查。如果输出结果很糟糕或过于复杂,他会要求 Codex 根据它所拥有的所有机构背景信息,审计自己哪里做错了,并改进配置。对于增长类工作,他把相关资料保存在一个名为 Every GrowthOS 的 GitHub 仓库中。当事情进展不顺时,他会让 Codex 设立一个目标来审计仓库,找出可能导致问题的旧指令或规则,并让整个配置更加简洁。
以下是用于启动 Austin 工作方法的提示词:
我想使用结果优先的工作流。
这是我想要的结果:
[描述最终成果]
以下是可能有帮助的信息源:
[列出文档、Slack 频道、Notion 页面、仓库、记录、会议笔记、分析工具、设计参考、过往案例或浏览器页面]
请为自己创建一个目标,搜索相关信息源,并尽可能推进,产出一个可用的初步版本。
在你工作的过程中:
- 自行做出合理的决策,无需等我
- 只提出那些会实质性改变结果的问题
- 保留一份你使用过的信息源的简短日志
- 记录下你做出的任何假设
- 标记出在我的分享或发布之前,任何需要我审查的内容
在第一个版本完成后:
- 总结哪些地方奏效了
- 总结哪些地方卡住了
- 建议应更新哪些指令、文件或工作流笔记,以便下次能进行得更快
Kieran 的可移植配置
Kieran 将 Codex 视为一个更大的个人 AI 系统中的一个工具。他的主要上下文来源是一个在 iCloud、Mac Mini 和他所有其他设备之间保持同步的文件夹。他可以让 Codex、Claude Cowork、Claude Code 或任何其他智能体指向这个相同的文件夹,然后智能体就能立即使用其中的上下文。
这些上下文来源广泛,包括会议记录、来自 Monologue 的语音笔记、日记条目,以及他脖子上一直挂着的 Limitless 吊坠所作的录音。当新资料进入文件夹系统时,Kieran 构建的一套自动化工作流就会开始审查、分类并提取关键细节,然后将综合后的信息存入相应的文件中。
记忆是让这套配置在长期内体现价值的核心。除了存储原始笔记,Kieran 的系统还会创建每日、每周和每月的输入上下文摘要。这些摘要变成了任何智能体以后都能读取的可复用记忆,这意味着他每次开始新任务时,不需要重新构建上下文。
这正是 Codex 发挥作用的地方。当 Kieran 需要进行跨工具的快速搜索和行动,尤其是遇到那些包含许多琐碎、烦人步骤的运营工作时,他就会求助于 Codex。例如,当人们通过 X、电子邮件和其他渠道申请提前访问 Cora 时,他要求 Codex 找出所有申请过访问权限的人,收集他们的联系信息,索要缺失的邮箱地址,创建一份电子表格,邀请人们加入 Slack 频道,并发送欢迎邮件。
以下是用于启动 Kieran 工作方法的提示词:
请帮我为我的工作中一个周期性循环设计一个可移植的上下文文件夹。
这个周期性工作流是:
[描述该工作流]
请提出一个文件夹结构方案,包括:
- 一个解释该循环的 README 文件
- 一个输入文件夹
- 一个“唯一真相来源(source-of-truth)”文件夹
- 一个用于智能体输出的工作文件夹
- 一个用于人类反馈的审查文件夹
- 一个记忆文件,用于保存每次执行中的经验教训
然后定义:
- 是什么输入启动了它?
- Codex 可以独自完成哪些工作?
- 哪些内容必须由我审查?
- 什么证据能证明结果是好的?
- 哪些内容应该保存下来,以备下次使用?
本周一试:挑选一种 Codex 风格并开始行动
Codex 之所以令人生畏,很大程度上是因为它太过于多才多艺。目前还没有公认的最佳实践,因为对你最有效的方法,和对你团队中其他成员最有效的方法,看起来会截然不同。如果你想使用或优化 Codex,或许“最好”的建议就是不要想太多——挑选一个配置提示词,然后直接深入进去。
Laura Entis 是 Every 的作者。你可以在 LinkedIn 上关注她。
核心启示:利用 Codex 的最佳方式不是寻找一个标准答案,而是理解其灵活性,并借鉴他人的具体工作流——无论是像对待直接下属一样委派任务、构建可移植的个人记忆系统,还是以结果为导向放弃精细管理——从而找到最适合自己的实战风格。
Codex in Practice 的发芽报告
材料核心
这是一篇关于Codex工作流设计的团队实践报告,揭示了同一个通用型Agentic workspace在不同角色手中演化出截然不同的使用哲学:Natalia的“信任式放权”、Dan的“记忆与路由”、Katie的“身份注入”、Austin的“结果导向”、Kieran的“跨平台便携记忆”。其深层张力不在于Codex能做什么,而在于“人如何决定让AI替自己承担哪些认知负荷”。
发芽 01:从“操作的愉悦”到“信任的阈值”——当AI从工具变成代理
种子
材料中Natalia分享了一个极具张力的细节:“I woke up to a CRM that was fully set up—work that would have taken weeks otherwise. It’s one of those moments of joy and delight.” 这种“醒来即完成”的美学,挑战了知识工作者对“亲自完成”的价值归属感。真正的问题不是Codex能否完成复杂任务,而是人在什么条件下愿意放弃过程的掌控权。
历史上有一个平行的转折点:1994年深蓝与卡斯帕罗夫的对弈被反复讨论,但更值得关注的其实是2005年的“自由式国际象棋锦标赛(Freestyle Chess)”。在那个允许人机协作的赛事中,冠军并非由顶级棋手或顶级计算机夺得,而是由两位业余棋手操纵三台普通电脑的组合——他们真正的优势不是棋力,而是知道何时信任机器的判断、何时果断推翻机器的走法。比赛总结中有一个术语叫“决策卫生(decision hygiene)”:操作者必须维护一个清晰的判断框架,决定哪些部分交给算法,哪些部分保留为人脑的最终裁决。
这恰好映射到材料中五种Codex工作流的分水岭。Natalia的“信任式”使用(让Codex在夜间无监督操作CRM)与Katie的“规则文件式”使用(明确记录don’t-do-this清单)代表了信任阈值的两个极端。前者把“操作”外包出去,后者把“约束”内建进去。Dan的router thread策略则更接近自由式国际象棋的逻辑——他不是在单个任务中与Codex合作,而是在元层面分配信任:哪些请求可以分发到子线程,哪些必须经过显式审批。
Aha 瞬间
“人机协作的新手问AI能做什么,熟练者问AI不能做什么——而最高阶的操作者,在构建一个让AI自己判断该不该做的系统。”
发芽 02:界面消失的时刻——为什么“文件系统”正在变成一种思想的外骨骼
种子
Katie和Kieran都强调了文件夹结构的重要性,但他们的方向截然相反:Katie让Codex反向采访自己构建了本地文件系统(AGENTS.md、Voice.md、偏好映射),而Kieran的文件夹是跨平台的“随身记忆”,多个Agent共享同一套上下文。两套系统表面上是文件结构,实际上是两个哲学选择:是要让AI更像自己,还是让自己更像一个可被AI读取的系统。
这里有一个值得深挖的对比案例:Xerox PARC在1970年代提出“桌面隐喻”时,文件夹被设计为人类理解机器文件系统的桥梁。但Codex实践恰好把这个隐喻翻转了——文件夹不再是人类整理文档的工具,而是让AI理解人类思想的接口。Katie的“Voice.md”本质上是一份自我人类学档案,把写作风格、偏好、禁忌转译为Agent可执行的参数。这与1979年施乐Alto团队的设计逻辑背道而驰:当时的界面是为了降低人类对机器的认知距离,而今天的文件系统是为了降低机器对人类的认知距离。
更极端的例子是Kieran的Limitless吊坠。他每天佩戴的设备记录对话、生成摘要、存入文件夹——他的身体本身成为文件夹的输入源。一旦这些语境被Codex或任何Agent读取,一个决策背景不再是“今天我在想什么”,而是“过去三个月我说过什么、听到过什么”。这种记忆外化的深度已经超越了PC时代的“辅助记忆”概念,进入了MIT教授Sherry Turkle所说的“亲密机器的第二个自我”——机器不再是你用来记录想法的工具,而是你思考的参与者。
Natalia那句“I have to focus a little less on architecting things well...I can just trust it to make good decisions”在这里获得了新的意义:当环境承担了架构工作,人类从“系统的构建者”退位为“意图的表达者”。这是一个没有GUI的重量级转变。
Aha 瞬间
“我们曾经用文件系统来组织知识,现在我们用文件系统来教AI如何成为我们——文件夹不再指向文档,文件夹指向人。”
发芽 03:“路由线程”的暗面——当AI替你选择先看什么,它也暗中替你选择了忽略什么
种子
Dan构建了一个精巧的委托系统:他给Codex分配独立邮箱地址,通过router thread每隔几分钟检查收件箱、分类请求、分发至子线程处理。这是效率的极致,但也揭示了一个几乎被忽略的权力让渡:当AI替你决定“这条消息应该进入哪个处理线程”时,它在做什么?
我不禁想到《大西洋月刊》主编Jeffrey Goldberg在2016年的一篇文章《The Obama Doctrine》中披露的“杀戮名单”决策流程。奥巴马在面对反恐无人机袭击的目标审批时,坚持用一张“个人矩阵表”亲自画线——谁能上名单、谁不能。他的理由并不是法律要求,而是一种心理负担:如果他把决策权完全交给下级或算法,他将失去对“致命性后果”的道德实感。这是一个极端的类比,但它解释了一个微妙的认知风险:路由线程类系统如果运行得足够好,人类就会停止对分类逻辑的质疑——因为质疑本身变成了一种看不到效益的精神摩擦。
真正的问题不是router thread会犯错,而是错误的温和性。如果一封重要的合作邀请被路由到了“低优先级-稍后处理”的子线程,错误不会爆炸,只会缓慢腐烂。而在材料中,Dan的设置确实保留了最终显式审批的环节,但这个审批是在“已被分类和优先级赋值”之后——人的判断在第二步才介入,第一步已经被架构预判了。
Katie的解决方案恰好在这里形成对照:她的系统不是做减法,而是做加法——文件结构让Codex在面对内容时拥有最完整的语境,而不是让它在入口处就做排除决策。两种设计的差异在于:Dan的系统降低了通信成本,但增加了忽略成本;Katie的系统降低了对错失重要信息的风险,但提高了准备成本。
Aha 瞬间
“最危险的自动化不是AI做了你不想做的事,而是它替你决定了你不需要知道的事——而你永远不会知道自己错过了什么。”
你的思考空间
如果你今晚必须写一封邮件给一年后的自己,解释你此刻最不希望Codex替你“路由掉”的信息类型,你会写什么?
Natalia用Codex管理父亲的医疗协调体系,信任度极高——但如果某一次医疗信息的分类错误导致错过关键预约,谁为这个错误负责?这种责任的外包是否在改变家庭照护的伦理?
五种Codex工作流中,哪一种最可能让使用者在三个月后产生“技能退化”——即脱离Agent后无法独立完成同类工作?你的判断依据是什么?
如果你按照Kieran的方式把过去三个月的所有对话摘要都存入一个Codex可读的文件夹,你最怕它发现关于你自己的什么模式?