省 Token 实战

同样的任务，会管理上下文能省下可观的额度。Token 省下来 = 钱省下来。

上下文管理

上下文越长，每一轮请求都要把它重新计费。控制住上下文是省钱第一要务：

长会话及时清理：用 /compact 压缩历史，或在任务切换时 /clear 重开，避免拖着臃肿历史反复计费。
大文件按需读：别让 agent 一股脑把整个目录塞进上下文。明确告诉它读哪个文件、哪一段。
拆分大任务：与其在一个超长会话里硬啃，不如拆成几个聚焦的小会话，每个上下文都更干净。
善用 progress 落盘：长任务让 agent 把进度写进 progress.md，而不是全靠对话历史扛——既省 token 又抗断点。

利用缓存分组

Kitcoding 有 Claude 特价-缓存优化分组（见模型分组）。它针对高缓存命中场景优化——当你反复在同一份长上下文（如大代码库、长文档）上提问时，命中的缓存部分计费更低，长上下文任务比普通特价分组更省。

适用场景：

在同一个大项目里持续多轮对话
反复围绕同一篇长文档/论文提问
需要稳定长上下文的科研调研任务

缓存优化分组的省钱效果取决于你的缓存命中率——上下文越稳定、复用越多，省得越明显。

投稿

你有省 token 的妙招或实测对比？投稿分享给其他用户，被采纳即可署名。