LLMs2026年5月23日

/goal 指令完全指南:Codex、Hermes、Claude Code 的自主代理新范式

/goalAI codeVibe codingLLM

摘要:2026 年 5 月,三大 AI 编程平台——OpenAI Codex、Nous Research Hermes、Anthropic Claude Code——相继发布了 /goal 指令。这不是巧合,而是行业对「下一代 Agent 控制界面」达成的共识。本文系统介绍 /goal 的概念、各平台实现的异同,以及跨平台 handoff 的使用建议。


一、什么是 /goal

1.1 从「提示-响应」到「目标-持续执行」

传统 AI 编程助手的工作模式是单轮问答:你给一个指令,它回答一次,然后等待下一条指令。开发者扮演的是「监督者」角色——每完成一步,就手动确认、再发下一条指令。

/goal 彻底改变了这个模式。它引入了一个**持久化目标(Persistent Goal)**的概念:你定义一个「完成条件」,Agent 就会自主地跨越多个对话轮次持续工作,直到条件满足为止,过程中不需要你反复介入。

核心思想:把「继续做」变成一份合同。你给 Agent 一个结果、一个完成定义、以及一种验证进度的方式,然后 Agent 持续工作,直到达到那个结果、耗尽预算、暂停,或遇到真正无法独自解决的障碍。

1.2 技术架构:评估者循环(Evaluator Loop)

/goal 的核心机制是任务执行者与评估者的分离

  • 执行模型(Worker):负责实际的编码、测试、重构等任务
  • 评估模型(Judge/Evaluator):每轮结束后,由一个独立的轻量模型检查:「目标是否已达成?」
    • ✅ 若达成 → 将控制权交还给用户
    • ❌ 若未达成 → 自动开始下一轮,继续执行

这种设计的关键洞察是:执行任务的模型,是判断任务是否完成的最差裁判。将两者分离,才能形成可靠的自主循环。

JavaScript
用户输入 /goal │ ▼ ┌─────────────┐ │ 执行模型 │ ← 编写代码、运行测试、修复 bug │ (Worker) │ └──────┬──────┘ │ 完成本轮 ▼ ┌─────────────┐ │ 评估模型 │ ← 检查完成条件是否满足 │ (Judge) │ └──────┬──────┘ │ ┌───┴───┐ 是 否 │ │ ▼ ▼ 结束 继续下一轮 (返回用户)

1.3 /goal 最适合的任务类型

  • 多步骤工程任务:模块迁移、测试套件修复、整个目录重构
  • 有明确完成标准的任务:「所有测试通过」「构建退出码为 0」「文件数量达到 N」
  • 长期运行任务:数据库优化、性能调优、代码库文档生成
  • 高度模糊的任务:需要主观判断、设计决策或人类品味的工作
  • 高风险不可逆操作:建议人工介入确认

二、三大平台的 /goal 实现

2.1 OpenAI Codex:「Goal Mode」— 工程执行引擎

HHMZMO4acAAe8AW.jpg
HHMZMO4acAAe8AW.jpg

图:OpenAI Codex CLI 终端界面。图片来源: @hqmank

发布时间:2026 年 4 月(实验性),随后正式发布

核心定位:Codex 是一个以实现为核心的编码代理——给它清晰的规格说明,它负责实现。/goal 是向它传达这份规格说明的方式。

工作原理

Codex 的 /goal 在底层维护了一个 thread_goals 数据库表,记录目标的状态、Token 预算和用时。每个目标有明确的生命周期状态:active(激活)、paused(暂停)、budget_limited(预算耗尽)、complete(完成)。

设计原则上有一个刻意的不对称:模型可以启动声明完成一个目标,但暂停/恢复/预算管理的控制权由用户或系统运行时掌握。指令文档明确说明:「只有在用户或系统/开发者指令明确请求时才创建目标;不要从普通任务中推断目标。」

使用方式

Shell
# 启动 Codex 交互会话 codex # 在会话中设置目标 /goal 将 db.ts 中的数据库查询优化至执行时间低于 50ms 约束: - 保持 schema 不变 - 用测试覆盖所有执行路径 - 目标执行时间低于 50ms

可用子命令

命令说明
/goal <描述>创建新目标
/goal pause暂停当前目标
/goal resume恢复已暂停目标
/goal clear清除当前目标

Codex /goal 的独特优势

  • 状态持久化:目标状态存储在数据库中,关闭终端不会丢失进度
  • 多环境支持:同一版本支持 turn-scoped 环境切换(dev / staging / remote)
  • AWS Bedrock 集成:原生支持 SigV4 签名,适合 AWS 生态团队
  • Goal Mode 正式版:已从实验功能升级为正式功能,在 Codex app、IDE 插件和 CLI 中均可用

2.2 Nous Research Hermes:「Persistent Goals」— 多代理协调者

image.png
image.png

图:Hermes Agent 多代理看板与 /goal 界面。图片来源:The End of the “Human Heartbeat”: How the /goal Command is Redefining AI Agents

发布时间:v0.13.0(2026 年 5 月 7 日,Tenacity Release)

核心定位:Hermes 不是编码执行者,而是多代理编排者(Orchestrator)。它自身不写代码——它协调 Codex、Claude Code 等工具去写代码,并管理每一次 handoff。

工作原理:Ralph Loop

Hermes 将 /goal 称为其「Ralph Loop」的实现——一个带状态、有评判者(Judge Model)、有轮次预算(默认 20 轮)、且跨会话持久化的自主循环:

  1. 用户发送目标
  2. Hermes 在 Kanban 看板上创建任务卡
  3. 为每张卡选择合适的工具(Codex 实现、Claude Code 审查等)
  4. Judge 模型在每轮后检查目标是否完成
  5. 未完成则自动继续;完成则向用户发送汇总报告

使用方式

JavaScript
# 在 Telegram/Discord/Slack/CLI 等任意平台 /goal 修复这个仓库中所有失败的测试 要求:运行测试命令,逐一识别失败,逐个 patch 修复,直到所有测试通过 # 管理子命令 /goal status # 查看当前目标状态 /goal pause # 暂停 /goal resume # 恢复 /goal clear # 清除

Hermes /goal 的独特优势

  • 跨平台消息接口:Telegram、Discord、Slack、Matrix、Signal 等均支持 /goal 命令,无需打开终端
  • Judge Model 内置:默认配备独立评判模型,轮次预算可配置(默认 20 轮)
  • Kanban 看板集成:目标自动拆解为 Kanban 任务,支持多代理并发执行
  • 技能(Skill)系统:已安装的 Skill 自动作为动态 slash command 暴露,包括 /plan(制定计划模式)
  • 权限分层:管理员 vs. 普通用户的命令权限分层控制

2.3 Anthropic Claude Code:/goal — 验证驱动的代码代理

image.png
image.png

图:Claude Code /goal 运行时的实时状态面板(显示已用时间、轮次、Token)。图片来源:joe.njenga

发布时间:2026 年 5 月 12 日(Claude Code v2.1.139)

核心定位:Claude Code 在查找代码问题上表现突出——规格合规性、安全漏洞、错误状态、边界情况。/goal 是将它指向一段代码并要求持续审查与修复的方式。

工作原理

Claude Code 的 /goal 通过 Hooks 系统实现评估者循环:

  • 每轮结束后,一个轻量、快速的评估模型检查完成条件是否满足
  • 实时显示覆盖面板:已用时间、轮次数、Token 消耗
  • 可在交互模式、-p 标志(无人值守)和远程控制(Remote Control)三种模式下运行

使用方式

Shell
# 需要 Claude Code v2.1.139 或更高版本 # 工作区信任对话框必须已接受(评估器是 hooks 系统的一部分) /goal 所有测试通过,且 CI 流水线绿灯 # Claude 将持续运行,直到测试通过,无需你逐轮确认 # 配合 auto 模式使用(无人值守) claude --auto # auto 模式批准工具调用,/goal 启动下一轮 # 计划任务或无头(headless)运行 claude -p "<目标描述>"

Claude Code /goal 的独特优势

  • 实时状态面板:覆盖层实时显示耗时/轮次/Token,透明度高
  • Hooks 系统集成:评估者与现有 hooks 架构深度结合,可高度定制
  • Remote Control 支持:适合在 CI/CD 流水线或远程服务器中运行
  • Agent View(研究预览):单列表查看所有运行中、等待中、已完成的 Claude Code 会话

三、三平台对比总览

维度Codex /goalHermes /goalClaude Code /goal
定位编码执行引擎多代理编排者验证驱动代码代理
发布时间2026 年 4 月2026 年 5 月(v0.13.0)2026 年 5 月(v2.1.139)
评估机制模型自我评估 + 状态机独立 Judge Model独立轻量评估模型(Hooks)
状态持久化✅ 数据库持久化,跨会话✅ 持久化,跨会话⚠️ 会话内持久,关闭后需重建
轮次预算Token 预算(可配置)默认 20 轮(可配置)无强制上限(需手动约束)
运行界面CLI / IDE / Desktop AppCLI + 消息平台(Telegram 等)交互 / -p / Remote Control
最擅长长期实现任务、多环境切换多代理协调、跨工具 handoff代码审查、测试修复、CI 集成
与其他工具集成AWS Bedrock、外部 Agent 导入Codex CLI、Claude Code 等MCP、CI/CD 流水线

四、跨平台 Handoff 使用建议

4.1 核心原则:让 Hermes 做指挥,Codex 做施工,Claude Code 做验收

三个平台使用相同的指令格式并非偶然——这让它们可以组合使用。最有效的工作流是:

JavaScript
你 → Hermes(/goal + 高层目标) │ ├──→ Codex(实现功能、编写代码) │ ├──→ Claude Code(审查代码、修复测试) │ └──→ Hermes(验证 + 发送汇总报告)→ 你

你永远不需要打开终端。

4.2 各平台 Handoff 场景建议

场景 A:新功能开发

推荐流程:Hermes /goal 下达目标 → Codex 实现 → Claude Code 审查

JavaScript
# 发送给 Hermes(Telegram/CLI) /goal 为用户模块添加 OAuth2 登录功能 约束: - 使用现有的 User 数据库 schema - 包含单元测试和集成测试 - 所有测试通过才算完成

Hermes 会自动将此目标拆解为 Kanban 任务,分配给 Codex 实现,再交给 Claude Code 做安全性审查。

场景 B:修复 CI 失败

推荐直接使用:Claude Code /goal

Shell
/goal 所有 CI 测试通过 # Claude Code 会持续排查失败测试并逐一修复

Claude Code 在「找出代码中看似正确但实际有问题」的场景上有优势,配合 CI 集成效果最佳。

场景 C:长期后台任务(过夜运行)

推荐使用:Codex Goal Mode(macOS 桌面 app)

Codex 支持 Remote Computer Use,即使 Mac 锁屏后仍可在远程继续工作。配合 Codex Mobile 可远程监控进度。

Shell
# 在 Codex CLI 中设置目标后,可安全锁屏 /goal 将整个 /src/legacy 目录迁移至新的模块架构 约束: - 保持所有公开 API 接口不变 - 每个模块须有对应测试 - 迁移完成标志:所有原测试继续通过

场景 D:代码库维护(周期性任务)

推荐使用:Hermes(自托管 + 消息平台触发)

Hermes 适合需要跨越多个编码会话的反复性工程工作——比如每周自动运行一次「清理过期 TODO」或「同步依赖版本」的目标。

4.3 写好 /goal 的通用原则

无论在哪个平台,优秀的 /goal 有几个共同特征:

1. 完成条件必须可验证

  • ✅ 「所有测试通过」(可测量)
  • ✅ 「构建退出码为 0」(可测量)
  • ❌ 「代码看起来更好」(不可验证)

2. 明确约束,而非只说目标

  • 告诉 Agent 不应该改变什么(保持 schema、保持 UI、保持 Lighthouse 分数)
  • 给出性能基准(「执行时间低于 50ms」)

3. 为长期运行设置预算

  • Hermes:设置 turn_budget
  • Codex:设置 token_budget
  • Claude Code:在条件中写入「最多 X 轮」或配合 Ctrl+C 准备随时中断

4. 优先在 Git 环境中运行

  • 运行前执行 git init
  • 可随时 git diffgit checkout 回滚
  • Agent 可能快速改动大量文件,版本控制是最重要的安全网

5. 不要在无人值守时运行开放性目标

  • 避免「优化整个代码库」这类开放目标过夜运行
  • 即使设置了预算,也要保持监控习惯

五、行业意义

三家不同公司在六周内相继发布了名称相同、格式相似的 /goal 命令,这是行业在长期自主代理控制界面上达成共识的信号。

VentureBeat 的报道指出,将「执行者」与「评判者」分离,是代理系统走向可审计、可观测的重要一步。Sprinklr 解决方案总监 Sean Brownell 表示:「这个循环确实有效。将构建者与评判者分离是合理的设计——从根本上说,你不能让执行任务的模型去判断任务是否完成。做这件事的模型,是判断它是否完成的最差裁判。」

/goal 的出现,标志着 AI 编程工具正式从「代码助手」演进为「自主工程代理」——开发者的角色,也从逐步监督者变成了目标制定者。


参考资料汇总

#来源链接
1OpenAI Codex Changeloghttps://developers.openai.com/codex/changelog
2Deep Dive: Master the New /goal Command in OpenAI Codex (Medium / proflead)https://medium.com/@proflead/deep-dive-master-the-new-goal-command-in-openai-codex-65428c307e85
3How to Use OpenAI Codex's /goal Command (MindStudio)https://www.mindstudio.ai/blog/openai-codex-goal-command-autonomous-tasks
4How OpenAI Codex implements /goal (GitHub Gist / patleeman)https://gist.github.com/patleeman/b1b5768393f9bf2f60865b1defeeb819
5OpenAI Codex /goal: Long-Horizon Mode (Kingy AI)https://kingy.ai/ai/openai-codex-goal-the-new-long-horizon-mode-for-agentic-coding/
6Hermes Slash Commands Reference (Nous Research GitHub)https://github.com/NousResearch/hermes-agent/blob/main/website/docs/reference/slash-commands.md
7Hermes Agent /goal Feature Guide (Geeky Gadgets)https://www.geeky-gadgets.com/automate-tasks-hermes-ai/
8Hermes Agent v0.13 Reference (blakecrosley.com)https://blakecrosley.com/guides/hermes
9Hermes /goal: Only Works If You Define "Done" Properly (JQ AI Systems)https://www.ai.joaoqueiros.com/blog/hermes-goal-agent-workflows
10The /goal Command: Codex and Claude Code as 24/7 Autonomous Agents (APIdog)https://apidog.com/blog/goal-command-codex-claude-code-autonomous-agents/
11Claude Code 2.1.139 adds /goal command (explainx.ai)https://explainx.ai/blog/claude-code-goal-command-long-running-agents-2026
12Introduction to Claude Code goal mode (apiyi.com)https://help.apiyi.com/en/claude-code-goal-mode-keep-working-until-done-guide-en.html
13Claude Code Updates May 2026 (Releasebot)https://releasebot.io/updates/anthropic/claude-code
14Claude Code /goal: A Field Guide (Medium / Jason Croucher)https://medium.com/@jason.croucher/claude-code-goal-a-field-guide-with-games-f6f3b617ce5b
15The Complete Claude /goal Guide (linas.substack.com)https://linas.substack.com/p/the-complete-claude-goal-guide
16Codex /goal vs Claude Code /goal (knightli.com)https://www.knightli.com/en/2026/05/14/codex-goal-vs-claude-code-goal/
17How Hermes, Codex, And Claude Code Use /goal (Rahul Goyal)https://rahulgoyal.co/justdraft/goal-command-coding-agents/
18The Ultimate Guide to /goal (The Unwind AI)https://www.theunwindai.com/p/the-ultimate-guide-to-goal
19Codex /goal vs Claude Code Agents: 2026 Comparison (devtoolpicks.com)https://devtoolpicks.com/blog/codex-goal-command-vs-claude-code-agents-2026
20Claude Code's /goals separates builder from judge (VentureBeat)https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done
21Goal mode for AI agents: OpenClaw, Hermes, Codex (explainx.ai)https://explainx.ai/blog/goal-mode-ai-agents-complete-guide-2026
22Hermes Just Made Codex the Engine (AlphaSignal)https://alphasignalai.substack.com/p/hermes-just-made-codex-the-engine