Skip to content

省 Token 实战

同样的任务,会管理上下文能省下可观的额度。Token 省下来 = 钱省下来。

上下文管理

上下文越长,每一轮请求都要把它重新计费。控制住上下文是省钱第一要务:

  • 长会话及时清理:用 /compact 压缩历史,或在任务切换时 /clear 重开,避免拖着臃肿历史反复计费。
  • 大文件按需读:别让 agent 一股脑把整个目录塞进上下文。明确告诉它读哪个文件、哪一段。
  • 拆分大任务:与其在一个超长会话里硬啃,不如拆成几个聚焦的小会话,每个上下文都更干净。
  • 善用 progress 落盘:长任务让 agent 把进度写进 progress.md,而不是全靠对话历史扛——既省 token 又抗断点。

利用缓存分组

Kitcoding 有 Claude 特价-缓存优化分组(见 模型分组)。它针对高缓存命中场景优化——当你反复在同一份长上下文(如大代码库、长文档)上提问时,命中的缓存部分计费更低,长上下文任务比普通特价分组更省。

适用场景:

  • 在同一个大项目里持续多轮对话
  • 反复围绕同一篇长文档/论文提问
  • 需要稳定长上下文的科研调研任务

缓存优化分组的省钱效果取决于你的缓存命中率——上下文越稳定、复用越多,省得越明显。

投稿

你有省 token 的妙招或实测对比?投稿 分享给其他用户,被采纳即可署名。