省 Token 实战
同样的任务,会管理上下文能省下可观的额度。Token 省下来 = 钱省下来。
上下文管理
上下文越长,每一轮请求都要把它重新计费。控制住上下文是省钱第一要务:
- 长会话及时清理:用
/compact压缩历史,或在任务切换时/clear重开,避免拖着臃肿历史反复计费。 - 大文件按需读:别让 agent 一股脑把整个目录塞进上下文。明确告诉它读哪个文件、哪一段。
- 拆分大任务:与其在一个超长会话里硬啃,不如拆成几个聚焦的小会话,每个上下文都更干净。
- 善用 progress 落盘:长任务让 agent 把进度写进
progress.md,而不是全靠对话历史扛——既省 token 又抗断点。
利用缓存分组
Kitcoding 有 Claude 特价-缓存优化分组(见 模型分组)。它针对高缓存命中场景优化——当你反复在同一份长上下文(如大代码库、长文档)上提问时,命中的缓存部分计费更低,长上下文任务比普通特价分组更省。
适用场景:
- 在同一个大项目里持续多轮对话
- 反复围绕同一篇长文档/论文提问
- 需要稳定长上下文的科研调研任务
缓存优化分组的省钱效果取决于你的缓存命中率——上下文越稳定、复用越多,省得越明显。
投稿
你有省 token 的妙招或实测对比?投稿 分享给其他用户,被采纳即可署名。