我让 AI 审计我自己的职业生涯
原文:I Asked an AI to Audit My Own Career 作者:Katie Parrott 日期:2026-06-22
在我被 AI 带来的沉浸式工作状态弄得近乎恍惚时,我突然想起了我的 OKR。
我发表过随笔和指南,为我们的每日 newsletter 构建了智能体技能,产出了六份针对新 AI 模型的实操评测,还积攒了一大堆 Codex 项目,以至于我的桌面看起来有点令人不安。但我完全不知道,这一切是否累积成了我在六月底前承诺要完成的四个季度目标。
在焦虑感不断敲击着我的大脑时,我打开了Codex 中的职业教练项目,输入:“我们能检查一下我的 OKR 进度吗?进入职业教练模式。”
仅仅十分钟后,我就得到了一份全面而客观的意见。是的,我完成了我设定的 OKR。如释重负的感觉淹没了我。
AI 终于让我们能够真正做好管理学思想家**彼得·德鲁克(Peter Drucker)**所说的“反馈分析”(feedback analysis)——写下你对一项重大决策的期望,并在几个月后对比实际结果。而我以前构建的旧版本职业教练工具,只能知道我选择告诉它的信息。相较之下,Codex 可以主动搜索我桌面上的文件、Slack 聊天记录、Google Drive 以及网络上的记录。
这意味着,我可以拼凑出一幅关于我实际表现的准确图景——它不带恭维色彩,也不被灾难化思维扭曲——然后将之与我曾经宣称要做的事情进行比对。
我去寻找证明我已履行工作职责的证据,结果带回来的,却是一个比以往清晰得多的工作定位。
一个有“记忆”的教练
在解释 Codex 如何消解我对 OKR 的焦虑之前,先让我说明一下,我是如何设置能够客观追踪我绩效的职业教练的。
在我对 OKR 感到恐慌的几周前,我重新整理了桌面,用文件和文件夹构建了一个我和智能体都能理解的空间。
我桌面上的职业教练文件夹,包含智能体首先读取的AGENTS.md文件,以及存放证据、计划、系统和引用资料的子文件夹,这些都是智能体在互动中可能用到的。(所有图片由Katie Parrott提供)
Every 的同事们教会我,电脑上一个简单的文件夹,就可以容纳一套完整的智能体工作操作系统,围绕某项工作展开。其中的文件既能储存已完成的工作成果,也能告诉智能体去哪里找上下文信息、哪种类型的信息该信任哪些工具,以及如何处理它产出的成果。
对于职业教练来说,这个文件系统看起来大致如此:
career-coach-mode/
- AGENTS.md
- References/
- Plans/
- Updates/
- Evidence/
- Systems/
**References(参考资料)**存放了当前的目标和我的岗位说明。**Plans(计划)**则保存着目标进度的审计和弥合差距的行动方案。**Evidence(证据)**里是 OKR 仪表盘。**Systems(系统)**则登记了我正在积累的其他智能体和自动化程序。
职业教练项目中的AGENTS.md文件,详细说明了在我提问之前智能体需要用到的背景信息。
关键在于那个 AGENTS.md 文件,本质上是一份给智能体进入项目时加载的操作手册。我的这份文件告诉职业教练:哪些上下文信息是权威的,在给我建议之前必须读取哪些资料,如何区分证据与解读,以及不同类别的输出应该存放在哪里。所有这些背景信息,都来源于一次由 Codex 主导的访谈,然后它将访谈结果打包成了自己可读的文件。而我的工作,则是审阅并批准它的输出。
对此我做了三个决定。第一,我给职业教练在桌面上安了一个家,方便我随时访问。第二,我要求它在向我提出建议之前,必须读取文件夹里的所有必要背景材料。第三,我告诉它要把有用的输出保存到下次对话时可以找到的地方。Codex 则负责处理文书工作:它提议了具体的子文件夹和 AGENTS.md 文件里该放什么内容,并将每个产出物归类到正确的位置。这就是我与 Codex 之间的分工:我选择信息来源和边界,智能体则负责收集、比对并制定计划。
当我下一次打开这个项目时,我立刻感受到了差异。因为教练已经知道我上周更正了什么内容、昨天补充了什么证据,以及今天早上通过了哪份计划,我们完全可以从上次停下的地方继续。
Codex 对我进度的“判词”
Codex 打开了我用来记录与我的上司——Every 的主编 Kate Lee 共同设定的四个目标及十六项可衡量结果的文档。接着,它检查了我的项目文件夹,在 Slack 中搜索人们使用我构建的产物的迹象,核查了我已发表的作品和绩效数据,然后将这一记录与我原先的计划进行对照。
我原本预期它会确认我早已偏离了正轨,因为我默认的假设是:任何时候、总有哪里会出问题。但它向我展示,我离完成目标的距离,比我预想的要近得多。
我为 Working Overtime 专栏设定的发稿目标已经完成。一项 newsletter 实验已被整合进我们的共享编辑智能体 Andy,我的同事 Laura Entis 正在使用并优化它。Vibe Check 的测评流水线已产出了相当规模的试运行成果和草稿。
随后,大概是出于我的本性,我让 Codex “做个漂亮的小可视化图表”。它竟真的构建了一个交互式的 OKR 健康仪表盘,为每个目标配了一张卡片,展示评估背后的证据、仍缺失的内容,以及最有可能改善本季度表现的下一个动作。
OKR健康仪表盘,展示目标进度、已确认凭证、证据缺口和下一步行动。
这张仪表盘纠正了我的自我评估,却拒绝让我沉浸于轻松感太久。“你的危险在于试图通过‘量’来证明影响力,”我的职业教练这样告诉我。它补充道,如果我希望我的工作能在组织内产生更大的效应,就需要主动把自己的工作分享给别人。
Codex 反馈中一次最扎实的验证,体现在我关于 Vibe Check 自动化的任务上。Every 的技术咨询主管 Mike Taylor 构建了一个用于端到端准备 Vibe Checks 的插件。我根据自己的一时想法到处微调,一直改到它在我的眼中毫无瑕疵为止。但事后,我并没有把它分享给同事,因为我怕我的修改反而让它变糟了。我害怕别人的评判,可真正能让这个系统变得更好的唯一路径,恰恰是倾听他们的想法。
正是在这里,我这个经过强化的职业教练触及了它的天花板:它能告诉我必须采取行动,却无法代替我迈出那一步。我最终还是把这个插件交棒给了编辑团队的 AI 助手 Andy。但我至今仍然做不到把它分享给一个活人,因为它还没到 尽善尽美 的程度。
OKR之外的真正影响力
有生以来第一次,我又开始对设定 OKR 充满期待了。
我的教练记录了我做了什么,在哪里产出了最强的结果,又在哪里回避了对采纳情况的衡量。我再也没办法为工作上的事过度自责了,因为我有了一个客观的评估器来让我对自己负责。
但教练还给了我另一件东西,让我理解了自己工作的影响力,并让我对公司的贡献感觉更积极。
我把一份关于 Every 品牌定位的内部文件分享给了它,并问它我在其中处于什么位置。它向我展示,我的工作是何以直接支撑起公司的战略的。
Working Overtime 为读者提供了描述“拥抱 AI 时的情感体验”的语言。我的指南则帮助他们付诸行动。Vibe Checks 在大模型发布的关键节点,展现了编辑团队的判断力。而我在建设方面的探索,越来越清晰地呈现出一个“从写作者向构建者”的转变轨迹。
它告诉我,我是为那些对 AI 感到好奇的人铺设的“入门口”。我会让一个读者产生这种想法:“好吧,如果她能行,也许我也能行。”
Codex基于Every的品牌定位和对我的工作的洞察,为我构建的角色定位文档片头。
这份角色定位分析,改变了我对待工作的方式。我在会议上更多地发言。我能更自信地说:“我想写这个话题,因为我觉得它会对这群人有所启发。”我也更坦然地接纳了自己作为“构建者”的身份。那些搭建起来的系统,不再感觉像是从我桌面上冒出来的某种奇怪业余爱好了。
我的起点,是去问 Codex 我在第二季度的目标上落后了多少。而记录反馈给我的,是宽慰,是“必须更响亮地谈论我所做的东西”的任务,以及一个关于我自身工作更宽广的图景。
现在我想问一个更好的问题:鉴于我已经向自己证明我有能力做的这些事,我该有足够大的雄心,去提议下一步去做些什么?
构建最小可用版本
你不必复刻我那个迷宫般的文件夹、经过四次迭代的实验品,也不必去造一个视觉冲击力堪比空管塔台的仪表盘,来搭建自己的 Codex 职业教练。你可以从一个问题开始:
相对于我这个季度所承担的目标,我站在什么位置?我下一步该做什么?
为了回答这个问题,创建一个项目文件夹。添加一份简短的说明文件,告诉智能体在向你提供建议之前需要读取哪些材料,哪些信息来源是权威的,如何标注不确定性,以及把有用的输出保存在哪里。
然后,给一个经你授权的智能体提供五类背景资料:
从你的目标、一个有代表性的工作文件夹、最近一次向领导汇报的记录,以及一份包含结果数据的文件开始。如果没有直接的 API 集成,你就手动导出或粘贴信息。但请务必遵守你所在公司的隐私、安全和访问规则。
给这个教练设定四条取证规则:
- 为每个重要结论,注明其信息来源。
- 区分“已确认的证据”、“解读”和“待定的问题”。
- 将意图、准备工作和讨论,视为比实际运行、交付、决策或结果更弱的证据。
- 在询问你的自我评估之前,先去查证记录。
紧接着,使用类似这样的提示词:
以注重证据的职业教练身份与我互动。根据我提供的资料中的工作记录、对话信息、反馈及产出数据,对比我当前的目标与职责。 针对每个目标,请展示:
- 已确认的进展,并附上信息来源链接或引用标记
- 有价值,但目前未被计入成果的工作
- 证据缺口,尤其是在采纳程度或影响力方面
- 目标已不再适配当前工作的地方
- 最有可能改进实际结果的单一下一步行动
然后,识别我在当前角色中发生的深层模式。务必区分“已确认的证据”、“你的解读”和“只有我能回答的问题”。最后,请制作一个可重复使用的仪表盘、证据列表、每周简报,或与上级对谈的议程表。当记录本身就能回答某个问题时,不要依赖我的自我评估作为依据。
把每次的输出结果保存到下次对话中可调用的位置。并将后续每一步的行动结果添加进来。在长期化的记录中更正来源上的错误。在每次与上级面谈前、每个周五,或一个计划周期结束时,重新运行一次这个审视流程。
无论你选择何种频率,记住要形成闭环:
承诺 -> 工作 -> 反馈或结果 -> 附来源的评估 -> 下一步行动 -> 新的证据
一开始,你只需要一张表:目标、已确认凭证、证据缺口,以及下一步动作。我的这张表,随着我发现了对这同一份记录的更多用法,后来陆续扩展成了仪表盘、采纳账本、领导层报告,以及角色定位文件。
这个系统,理应将最终的判断权,留给你自己。
核心启示:用 AI 构建职业教练,其真正威力不在于替你完成工作,而在于打破扭曲的自我认知,通过系统性地比对“曾经的承诺”与“客观的记录”,让你看清自己真实的贡献与真正该迈出的下一步。

《我让 AI 审计我的职业生涯》的发芽报告
材料核心
作者 Katie Parrott 利用 Codex 构建了一个基于证据的 AI 职业教练系统,通过客观追踪工作产出与既定目标的差距,不仅验证了自己的 OKR 进展,更重要的是发现了被自我怀疑掩盖的真实贡献——她不是“做得不够”,而是“说得不够”。
发芽 01:反馈的污点证人——为什么自我评估不可靠
种子
材料中的核心张力在于:作者默认“自己一定出了问题”,而 AI 教练用证据告诉她“你已经完成了目标”。这不是一个关于效率的故事,而是一个关于认知校准的故事。我们为什么需要外部证据系统?因为人类对自身表现的记忆不是录像机,而是一个带着强烈情感滤镜的不可靠叙述者。
2002 年诺贝尔经济学奖得主 Daniel Kahneman 在《思考,快与慢》中系统揭示了一个机制:可得性启发。我们判断某事发生的概率或自身表现时,依据的不是客观事实,而是最容易浮现在脑海中的例子。对于像 Parrott 这样高度自我要求的知识工作者,最易得的记忆是什么?是 Vibe Check 插件的“不完美”,是分享它时的恐惧,是那些散落在桌面上的半成品项目——这些焦虑信号远比“我按时完成了出版目标”这样平淡的事实更具记忆黏性。
这就解释了 Drucker 的“反馈分析”为什么在过去难以真正落地。Drucker 在 2005 年《哈佛商业评论》的《管理自己》一文中提出:写下你对每一项重大决策的预期,9-12 个月后对比实际结果。这个方法看似简单,但当他本人实践了 50 年后承认,执行起来极其痛苦。因为你要面对的不是“我做得够不够多”,而是“我的判断在哪里系统性失灵”。
Codex 在这里扮演的角色不是教练,而是反馈的污点证人。它不靠记忆,不照顾你的情绪,不放大近期的失败,不遗忘早期的成功。它检查 Slack 消息中同事是否使用了你的产出,核对项目文件夹中的证据链,对比你写下的目标与实际交付。当作者要求它“请做一个漂亮的小可视化”,那个 OKR 健康仪表盘不是装饰品——它是认知校准的物证。
Aha 瞬间
“你不能用焦虑的强度来测量目标的完成度。恐惧的声音总是比完成的声音更响亮,除非你给完成者一个麦克风。”
发芽 02:从作家到建设者的隐秘转换——AI 如何重构职业身份
种子
材料中最深刻但未被直接点名的线索是:Parrott 在用一个“建设者”的工具解决“作家”的自我怀疑。她用来追踪 OKR 的系统、构建 Vibe Check 插件的过程、为 Andy(编辑团队 AI 助手)设计技能——这些行为本身已经表明她的工作性质发生了质变,但她的自我认知还停留在“我是一个写作者,这些不过是桌面上的奇怪爱好”。
这是知识工作自动化的一个隐蔽效应:当你的产出不再是可见的文档,而是可被他人调用的系统、可复用的工作流、可交互的代理,传统的职业身份标签就会滞后于实际工作内容。
哈佛商学院教授 Amy Edmondson 的研究提供了一个有力的解释框架。她发现,当组织引入新技术时,最困难的不是技术学习本身,而是人们对于“我的工作到底是什么”的心理模型更新滞后。她称之为角色模糊性负担——员工会用旧脚本解读新行为,把自己的创造性系统建设归类为“不务正业”。
这就是为什么 AI 教练给出的角色定位如此具有冲击力。当 Codex 分析了 Every 公司的品牌定位文件,并将 Parrott 的工作嵌入其中后,给出的结论是:她是“AI 好奇者的上坡道”,是让读者产生“如果她可以,也许我也可以”想法的关键人物。这个定位之所以让她“在会议上更愿意发言”“更敢于说我想写这个”,不是因为获得了外部认可,而是因为她终于看清了自己已经在做的工作的真实性质。
值得注意的是,这种身份焦虑是正向的——它不是能力不足的信号,而是能力已经超出了旧框架的证据。正如心理学家 Lev Vygotsky 的最近发展区理论所揭示的:真正的学习发生在你能独立完成的和你需要帮助才能完成之间。Parrott 的“建设者项目”正是处在这个区间——她能独立完成,但没有足够的概念框架来承认它们是正式工作的一部分。
Aha 瞬间
“当你开始把职业转型误认为业余爱好时,你需要的不是更多的技能,而是一个能告诉你‘这早就是你的工作了’的镜子。”
发芽 03:古德哈特定律与 AI 教练的隐秘风险——当测量改变行为
种子
材料展示了 AI 教练的积极面,但其中隐含着一条暗线:当你知道自己被度量时,你会改变行为以适应度量体系。 作者提到她以前版本的职业教练工具“只知道我选择告诉它们的信息”,而 Codex“可以跨桌面、Slack、Google Drive 和网络去寻找收据”。这种从“自我报告”到“法务审计”的转变,既是解脱(你无法欺骗自己),也是新的压力源(你无法隐藏)。
这涉及到经济学家 Charles Goodhart 在 1975 年提出的古德哈特定律,其原始表述是:“一旦一个指标被用于控制目的,它就不再是一个好的指标。”这句话来自他对英国货币政策的观察,但完全适用于任何量化自我系统。
在职业审计的场景中,危险的形式更微妙。如果我知道 Codex 会在 Slack 里搜索“是否有同事使用了我的产出”作为影响力的证据,我的行为可能从“做对业务最有价值的事”,悄然滑向“做最容易在 Slack 上留下引用痕迹的事”。如果 OKR 健康仪表盘用绿色标记“已有收据”的项目、用红色标记“证据缺口”的项目,我会不会开始把大量精力花在“把模糊成果转化为可被机器识别的收据”上?
这并非否定 AI 审计的价值,而是指出一个必须被正视的张力。Parrott 本人已经触及到了这个边缘:当 AI 说“你的危险在于试图用数量证明影响力”,这实际上是在警告她不要落入指标主义的陷阱。AI 能够识别出她过度生产的行为模式,恰恰说明一个好的审计系统必须同时包含反审计的提醒。
材料中最重要的一条证据规则是:“在询问你的自我评估之前,先检查记录。”这句话本身就是对古德哈特定律的一种防御——它要求先建立客观基准线,再用主观判断去解释,而不是反过来。但真正的安全网可能在作者最后提出的那个问题上:“鉴于我已经证明自己能做到的工作,我应该足够雄心勃勃地提出什么?”这个问题引导的不是对过去指标的优化,而是对未来价值的重新定义——这正是走出度量陷阱的唯一途径。
Aha 瞬间
“一个好的 AI 教练不仅要告诉你完成了多少 OKR,还要警告你不要为了完成 OKR 而改变工作的本质。最有价值的输出,是那个让你不再需要盯着仪表盘的问题。”
你的思考空间
如果你像 Parrott 一样搭建一个基于证据的 AI 职业审计系统,你最大的恐惧是什么:是发现你做得不够,还是发现你一直在错误的方向上“做得很好”?
在“承诺 → 工作 → 反馈 → 评估 → 下一步行动 → 新证据”的闭环中,哪个环节是你当前最缺少证据的?如果 AI 能填补这个空白,你愿意让它访问哪些数据源?
古德哈特定律在你目前的绩效考核体系中如何运作?有没有哪个指标在你开始关注它之后,就不再反映真实价值了?
Parrott 的角色转变(从作家到建设者)是被 AI 教练“发现”的,而不是她主动宣布的。在你的职业生涯中,有没有哪些已经发生的转变,因为你没有给它们命名,而一直被你视为“副业”或“偶然”?
德鲁克的反馈分析法要求你写下预期后等待 9-12 个月再对比。如果 AI 能将这个周期缩短到每周一次,你是否有勇气接受如此高频率的认知校准?适度的“无知”对持续行动是否也是一种保护?
