Skip to content

让 AI 长时间自主干大活

把一个大任务丢给 agent,让它自己规划、执行、自我纠错,连续跑几小时——而不是你守在旁边一句句喂"继续"。

工具在进化,方法也在进化

早期社区靠手写 plan.md + 把任务拆成 CSV 清单 + 反复重开 session 喂 prompt 来"骗" agent 持续干活。这套土办法现在基本被官方机制取代了——直接用下面的原生能力即可,更稳、更省心。本页只讲当下推荐做法。

Codex:用 /goal 持续自主执行

Codex CLI(0.128.0+)内置了 /goal 命令——把 Codex 从"一问一答"变成持续运转的 agent:自己规划 → 执行 → 自我纠错,直到目标达成,中途无需你不断介入。

text
/goal 把这个项目的测试覆盖率提升到 80%,补全缺失的单元测试并确保全部通过

这是实验特性

/goal 目前为实验功能,需要在配置中手动开启。开启方式以 Codex 官方文档 为准(不同版本可能有差异)。

长时任务最烧额度——先选对分组

连续跑几小时会消耗大量 token。接 Kitcoding 时强烈建议用低倍率分组控制成本:

Claude Code:Plan Mode + 自主执行

Claude Code 的思路是先规划、再放手执行

  1. Shift + Tab 进入 Plan Mode,让它先把多步骤方案列出来(不直接动手)。
  2. 审一遍计划,确认方向对。
  3. 退出 Plan Mode 让它按计划自主执行,期间它会自己读文件、改代码、跑测试、自我修正。

为什么先 Plan

大任务直接开干容易跑偏、上下文越塞越乱。先出计划 = 给一次"对齐方向"的机会,执行阶段也更不容易迷失。这对长时间无人值守的任务尤其重要。

通用心法(不分客户端)

无论用哪个,让 agent 长时间稳定干活的几个关键:

  • 目标要具体、可验证:给"把测试覆盖率到 80% 且全绿"这种有明确完成判据的目标,比"优化一下代码"强得多——agent 知道什么时候算干完。
  • 留好上下文预算:长任务最怕上下文爆掉。配合 省 Token 实战,必要时让它阶段性写 progress.md 落盘,避免全靠对话历史扛。
  • 设好安全边界:无人值守时注意权限范围,别让它在没确认的情况下做不可逆操作(删库、强推等)。
  • 分阶段对齐:超大任务可拆成几个 /goal 或几轮 Plan,每阶段产出一个可检查的中间物。

科研场景应用

这套"长时自主"能力对科研用户特别有用,比如:

  • 让 agent 自主调研一个方向的几十上百篇文献,产出结构化综述笔记。
  • 批量处理实验数据 / 跑分析脚本 / 生成图表,一次性交给 agent 连续完成。

思路同上:给具体目标 + 选低倍率分组控成本 + 让它阶段性落盘进度。


内容来源

本页方法论参考自 linux.do 社区关于 Codex 长时任务的讨论(如 topic/1353223),并更新为当前推荐的官方机制(Codex /goal、Claude Code Plan Mode)。欢迎通过 投稿 补充你的实战经验。