摘要：2026 年 5 月，三大 AI 编程平台——OpenAI Codex、Nous Research Hermes、Anthropic Claude Code——相继发布了 /goal 指令。这不是巧合，而是行业对「下一代 Agent 控制界面」达成的共识。本文系统介绍 /goal 的概念、各平台实现的异同，以及跨平台 handoff 的使用建议。

一、什么是 `/goal`？

1.1 从「提示-响应」到「目标-持续执行」

传统 AI 编程助手的工作模式是单轮问答：你给一个指令，它回答一次，然后等待下一条指令。开发者扮演的是「监督者」角色——每完成一步，就手动确认、再发下一条指令。

/goal 彻底改变了这个模式。它引入了一个**持久化目标（Persistent Goal）**的概念：你定义一个「完成条件」，Agent 就会自主地跨越多个对话轮次持续工作，直到条件满足为止，过程中不需要你反复介入。

核心思想：把「继续做」变成一份合同。你给 Agent 一个结果、一个完成定义、以及一种验证进度的方式，然后 Agent 持续工作，直到达到那个结果、耗尽预算、暂停，或遇到真正无法独自解决的障碍。

1.2 技术架构：评估者循环（Evaluator Loop）

/goal 的核心机制是任务执行者与评估者的分离：

执行模型（Worker）：负责实际的编码、测试、重构等任务
评估模型（Judge/Evaluator）：每轮结束后，由一个独立的轻量模型检查：「目标是否已达成？」
- ✅ 若达成 → 将控制权交还给用户
- ❌ 若未达成 → 自动开始下一轮，继续执行

这种设计的关键洞察是：执行任务的模型，是判断任务是否完成的最差裁判。将两者分离，才能形成可靠的自主循环。

JavaScript

用户输入 /goal
      │
      ▼
┌─────────────┐
│  执行模型    │ ← 编写代码、运行测试、修复 bug
│  (Worker)   │
└──────┬──────┘
       │ 完成本轮
       ▼
┌─────────────┐
│  评估模型    │ ← 检查完成条件是否满足
│  (Judge)    │
└──────┬──────┘
       │
   ┌───┴───┐
  是       否
   │       │
   ▼       ▼
 结束    继续下一轮
（返回用户）

1.3 `/goal` 最适合的任务类型

✅ 多步骤工程任务：模块迁移、测试套件修复、整个目录重构
✅ 有明确完成标准的任务：「所有测试通过」「构建退出码为 0」「文件数量达到 N」
✅ 长期运行任务：数据库优化、性能调优、代码库文档生成
❌ 高度模糊的任务：需要主观判断、设计决策或人类品味的工作
❌ 高风险不可逆操作：建议人工介入确认

二、三大平台的 `/goal` 实现

2.1 OpenAI Codex：「Goal Mode」— 工程执行引擎

图：OpenAI Codex CLI 终端界面。图片来源： @hqmank

发布时间：2026 年 4 月（实验性），随后正式发布

核心定位：Codex 是一个以实现为核心的编码代理——给它清晰的规格说明，它负责实现。/goal 是向它传达这份规格说明的方式。

工作原理

Codex 的 /goal 在底层维护了一个 thread_goals 数据库表，记录目标的状态、Token 预算和用时。每个目标有明确的生命周期状态：active（激活）、paused（暂停）、budget_limited（预算耗尽）、complete（完成）。

设计原则上有一个刻意的不对称：模型可以启动和声明完成一个目标，但暂停/恢复/预算管理的控制权由用户或系统运行时掌握。指令文档明确说明：「只有在用户或系统/开发者指令明确请求时才创建目标；不要从普通任务中推断目标。」

使用方式

Shell

# 启动 Codex 交互会话
codex

# 在会话中设置目标
/goal 将 db.ts 中的数据库查询优化至执行时间低于 50ms
约束：
- 保持 schema 不变
- 用测试覆盖所有执行路径
- 目标执行时间低于 50ms

可用子命令

命令	说明
`/goal <描述>`	创建新目标
`/goal pause`	暂停当前目标
`/goal resume`	恢复已暂停目标
`/goal clear`	清除当前目标

Codex `/goal` 的独特优势

状态持久化：目标状态存储在数据库中，关闭终端不会丢失进度
多环境支持：同一版本支持 turn-scoped 环境切换（dev / staging / remote）
AWS Bedrock 集成：原生支持 SigV4 签名，适合 AWS 生态团队
Goal Mode 正式版：已从实验功能升级为正式功能，在 Codex app、IDE 插件和 CLI 中均可用

2.2 Nous Research Hermes：「Persistent Goals」— 多代理协调者

图：Hermes Agent 多代理看板与 /goal 界面。图片来源：The End of the “Human Heartbeat”: How the /goal Command is Redefining AI Agents

发布时间：v0.13.0（2026 年 5 月 7 日，Tenacity Release）

核心定位：Hermes 不是编码执行者，而是多代理编排者（Orchestrator）。它自身不写代码——它协调 Codex、Claude Code 等工具去写代码，并管理每一次 handoff。

工作原理：Ralph Loop

Hermes 将 /goal 称为其「Ralph Loop」的实现——一个带状态、有评判者（Judge Model）、有轮次预算（默认 20 轮）、且跨会话持久化的自主循环：

用户发送目标
Hermes 在 Kanban 看板上创建任务卡
为每张卡选择合适的工具（Codex 实现、Claude Code 审查等）
Judge 模型在每轮后检查目标是否完成
未完成则自动继续；完成则向用户发送汇总报告

使用方式

JavaScript

# 在 Telegram/Discord/Slack/CLI 等任意平台
/goal 修复这个仓库中所有失败的测试
要求：运行测试命令，逐一识别失败，逐个 patch 修复，直到所有测试通过

# 管理子命令
/goal status   # 查看当前目标状态
/goal pause    # 暂停
/goal resume   # 恢复
/goal clear    # 清除

Hermes `/goal` 的独特优势

跨平台消息接口：Telegram、Discord、Slack、Matrix、Signal 等均支持 /goal 命令，无需打开终端
Judge Model 内置：默认配备独立评判模型，轮次预算可配置（默认 20 轮）
Kanban 看板集成：目标自动拆解为 Kanban 任务，支持多代理并发执行
技能（Skill）系统：已安装的 Skill 自动作为动态 slash command 暴露，包括 /plan（制定计划模式）
权限分层：管理员 vs. 普通用户的命令权限分层控制

2.3 Anthropic Claude Code：`/goal` — 验证驱动的代码代理

图：Claude Code /goal 运行时的实时状态面板（显示已用时间、轮次、Token）。图片来源：joe.njenga

发布时间：2026 年 5 月 12 日（Claude Code v2.1.139）

核心定位：Claude Code 在查找代码问题上表现突出——规格合规性、安全漏洞、错误状态、边界情况。/goal 是将它指向一段代码并要求持续审查与修复的方式。

工作原理

Claude Code 的 /goal 通过 Hooks 系统实现评估者循环：

每轮结束后，一个轻量、快速的评估模型检查完成条件是否满足
实时显示覆盖面板：已用时间、轮次数、Token 消耗
可在交互模式、-p 标志（无人值守）和远程控制（Remote Control）三种模式下运行

使用方式

Shell

# 需要 Claude Code v2.1.139 或更高版本
# 工作区信任对话框必须已接受（评估器是 hooks 系统的一部分）

/goal 所有测试通过，且 CI 流水线绿灯
# Claude 将持续运行，直到测试通过，无需你逐轮确认

# 配合 auto 模式使用（无人值守）
claude --auto
# auto 模式批准工具调用，/goal 启动下一轮

# 计划任务或无头（headless）运行
claude -p "<目标描述>"

Claude Code `/goal` 的独特优势

实时状态面板：覆盖层实时显示耗时/轮次/Token，透明度高
Hooks 系统集成：评估者与现有 hooks 架构深度结合，可高度定制
Remote Control 支持：适合在 CI/CD 流水线或远程服务器中运行
Agent View（研究预览）：单列表查看所有运行中、等待中、已完成的 Claude Code 会话

三、三平台对比总览

维度	Codex `/goal`	Hermes `/goal`	Claude Code `/goal`
定位	编码执行引擎	多代理编排者	验证驱动代码代理
发布时间	2026 年 4 月	2026 年 5 月（v0.13.0）	2026 年 5 月（v2.1.139）
评估机制	模型自我评估 + 状态机	独立 Judge Model	独立轻量评估模型（Hooks）
状态持久化	✅ 数据库持久化，跨会话	✅ 持久化，跨会话	⚠️ 会话内持久，关闭后需重建
轮次预算	Token 预算（可配置）	默认 20 轮（可配置）	无强制上限（需手动约束）
运行界面	CLI / IDE / Desktop App	CLI + 消息平台（Telegram 等）	交互 / `-p` / Remote Control
最擅长	长期实现任务、多环境切换	多代理协调、跨工具 handoff	代码审查、测试修复、CI 集成
与其他工具集成	AWS Bedrock、外部 Agent 导入	Codex CLI、Claude Code 等	MCP、CI/CD 流水线

四、跨平台 Handoff 使用建议

4.1 核心原则：让 Hermes 做指挥，Codex 做施工，Claude Code 做验收

三个平台使用相同的指令格式并非偶然——这让它们可以组合使用。最有效的工作流是：

JavaScript

你 → Hermes（/goal + 高层目标）
        │
        ├──→ Codex（实现功能、编写代码）
        │
        ├──→ Claude Code（审查代码、修复测试）
        │
        └──→ Hermes（验证 + 发送汇总报告）→ 你

你永远不需要打开终端。

4.2 各平台 Handoff 场景建议

场景 A：新功能开发

推荐流程：Hermes /goal 下达目标 → Codex 实现 → Claude Code 审查

JavaScript

# 发送给 Hermes（Telegram/CLI）
/goal 为用户模块添加 OAuth2 登录功能
约束：
- 使用现有的 User 数据库 schema
- 包含单元测试和集成测试
- 所有测试通过才算完成

Hermes 会自动将此目标拆解为 Kanban 任务，分配给 Codex 实现，再交给 Claude Code 做安全性审查。

场景 B：修复 CI 失败

推荐直接使用：Claude Code /goal

Shell

/goal 所有 CI 测试通过
# Claude Code 会持续排查失败测试并逐一修复

Claude Code 在「找出代码中看似正确但实际有问题」的场景上有优势，配合 CI 集成效果最佳。

场景 C：长期后台任务（过夜运行）

推荐使用：Codex Goal Mode（macOS 桌面 app）

Codex 支持 Remote Computer Use，即使 Mac 锁屏后仍可在远程继续工作。配合 Codex Mobile 可远程监控进度。

Shell

# 在 Codex CLI 中设置目标后，可安全锁屏
/goal 将整个 /src/legacy 目录迁移至新的模块架构
约束：
- 保持所有公开 API 接口不变
- 每个模块须有对应测试
- 迁移完成标志：所有原测试继续通过

场景 D：代码库维护（周期性任务）

推荐使用：Hermes（自托管 + 消息平台触发）

Hermes 适合需要跨越多个编码会话的反复性工程工作——比如每周自动运行一次「清理过期 TODO」或「同步依赖版本」的目标。

4.3 写好 `/goal` 的通用原则

无论在哪个平台，优秀的 /goal 有几个共同特征：

1. 完成条件必须可验证

✅ 「所有测试通过」（可测量）
✅ 「构建退出码为 0」（可测量）
❌ 「代码看起来更好」（不可验证）

2. 明确约束，而非只说目标

告诉 Agent 不应该改变什么（保持 schema、保持 UI、保持 Lighthouse 分数）
给出性能基准（「执行时间低于 50ms」）

3. 为长期运行设置预算

Hermes：设置 turn_budget
Codex：设置 token_budget
Claude Code：在条件中写入「最多 X 轮」或配合 Ctrl+C 准备随时中断

4. 优先在 Git 环境中运行

运行前执行 git init
可随时 git diff 或 git checkout 回滚
Agent 可能快速改动大量文件，版本控制是最重要的安全网

5. 不要在无人值守时运行开放性目标

避免「优化整个代码库」这类开放目标过夜运行
即使设置了预算，也要保持监控习惯

五、行业意义

三家不同公司在六周内相继发布了名称相同、格式相似的 /goal 命令，这是行业在长期自主代理控制界面上达成共识的信号。

VentureBeat 的报道指出，将「执行者」与「评判者」分离，是代理系统走向可审计、可观测的重要一步。Sprinklr 解决方案总监 Sean Brownell 表示：「这个循环确实有效。将构建者与评判者分离是合理的设计——从根本上说，你不能让执行任务的模型去判断任务是否完成。做这件事的模型，是判断它是否完成的最差裁判。」

/goal 的出现，标志着 AI 编程工具正式从「代码助手」演进为「自主工程代理」——开发者的角色，也从逐步监督者变成了目标制定者。

参考资料汇总

#	来源	链接
1	OpenAI Codex Changelog	https://developers.openai.com/codex/changelog
2	Deep Dive: Master the New /goal Command in OpenAI Codex (Medium / proflead)	https://medium.com/@proflead/deep-dive-master-the-new-goal-command-in-openai-codex-65428c307e85
3	How to Use OpenAI Codex's /goal Command (MindStudio)	https://www.mindstudio.ai/blog/openai-codex-goal-command-autonomous-tasks
4	How OpenAI Codex implements /goal (GitHub Gist / patleeman)	https://gist.github.com/patleeman/b1b5768393f9bf2f60865b1defeeb819
5	OpenAI Codex /goal: Long-Horizon Mode (Kingy AI)	https://kingy.ai/ai/openai-codex-goal-the-new-long-horizon-mode-for-agentic-coding/
6	Hermes Slash Commands Reference (Nous Research GitHub)	https://github.com/NousResearch/hermes-agent/blob/main/website/docs/reference/slash-commands.md
7	Hermes Agent /goal Feature Guide (Geeky Gadgets)	https://www.geeky-gadgets.com/automate-tasks-hermes-ai/
8	Hermes Agent v0.13 Reference (blakecrosley.com)	https://blakecrosley.com/guides/hermes
9	Hermes /goal: Only Works If You Define "Done" Properly (JQ AI Systems)	https://www.ai.joaoqueiros.com/blog/hermes-goal-agent-workflows
10	The /goal Command: Codex and Claude Code as 24/7 Autonomous Agents (APIdog)	https://apidog.com/blog/goal-command-codex-claude-code-autonomous-agents/
11	Claude Code 2.1.139 adds /goal command (explainx.ai)	https://explainx.ai/blog/claude-code-goal-command-long-running-agents-2026
12	Introduction to Claude Code goal mode (apiyi.com)	https://help.apiyi.com/en/claude-code-goal-mode-keep-working-until-done-guide-en.html
13	Claude Code Updates May 2026 (Releasebot)	https://releasebot.io/updates/anthropic/claude-code
14	Claude Code /goal: A Field Guide (Medium / Jason Croucher)	https://medium.com/@jason.croucher/claude-code-goal-a-field-guide-with-games-f6f3b617ce5b
15	The Complete Claude /goal Guide (linas.substack.com)	https://linas.substack.com/p/the-complete-claude-goal-guide
16	Codex /goal vs Claude Code /goal (knightli.com)	https://www.knightli.com/en/2026/05/14/codex-goal-vs-claude-code-goal/
17	How Hermes, Codex, And Claude Code Use /goal (Rahul Goyal)	https://rahulgoyal.co/justdraft/goal-command-coding-agents/
18	The Ultimate Guide to /goal (The Unwind AI)	https://www.theunwindai.com/p/the-ultimate-guide-to-goal
19	Codex /goal vs Claude Code Agents: 2026 Comparison (devtoolpicks.com)	https://devtoolpicks.com/blog/codex-goal-command-vs-claude-code-agents-2026
20	Claude Code's /goals separates builder from judge (VentureBeat)	https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done
21	Goal mode for AI agents: OpenClaw, Hermes, Codex (explainx.ai)	https://explainx.ai/blog/goal-mode-ai-agents-complete-guide-2026
22	Hermes Just Made Codex the Engine (AlphaSignal)	https://alphasignalai.substack.com/p/hermes-just-made-codex-the-engine

/goal 指令完全指南：Codex、Hermes、Claude Code 的自主代理新范式

一、什么是 /goal？

1.1 从「提示-响应」到「目标-持续执行」

1.2 技术架构：评估者循环（Evaluator Loop）

1.3 /goal 最适合的任务类型

二、三大平台的 /goal 实现

2.1 OpenAI Codex：「Goal Mode」— 工程执行引擎

工作原理

使用方式

可用子命令

Codex /goal 的独特优势

2.2 Nous Research Hermes：「Persistent Goals」— 多代理协调者

工作原理：Ralph Loop

使用方式

Hermes /goal 的独特优势

2.3 Anthropic Claude Code：/goal — 验证驱动的代码代理

工作原理

使用方式

Claude Code /goal 的独特优势

三、三平台对比总览

四、跨平台 Handoff 使用建议

4.1 核心原则：让 Hermes 做指挥，Codex 做施工，Claude Code 做验收

4.2 各平台 Handoff 场景建议

场景 A：新功能开发

场景 B：修复 CI 失败

场景 C：长期后台任务（过夜运行）

场景 D：代码库维护（周期性任务）

4.3 写好 /goal 的通用原则

五、行业意义

参考资料汇总

一、什么是 `/goal`？

1.3 `/goal` 最适合的任务类型

二、三大平台的 `/goal` 实现

Codex `/goal` 的独特优势

Hermes `/goal` 的独特优势

2.3 Anthropic Claude Code：`/goal` — 验证驱动的代码代理

Claude Code `/goal` 的独特优势

4.3 写好 `/goal` 的通用原则