最近把 Hermes Desktop 的主力模型切到了 Kimi(具体是 kimi-k2.7-code-high-speed)。整个过程比预想的顺利,但有一个坑必须提前知道——Kimi 的上下文窗口不是 1M,而是 256K。
为什么选 Kimi
Kimi 在中文技术写作和代码理解上表现很好,响应速度也快。对于日常写博客、改代码、处理文档这类任务,性价比很高。
那个必须知道的配置
Kimi 官方宣传有 1M 上下文,但实际 API 给到的只有 256K。这个差距在 Hermes 里不会自动处理——如果你扔给它一篇长论文或者大量代码,后面会直接截断,模型根本看不到前面的内容。
所以需要在 Hermes 的配置里手动限制上下文长度,让 Agent 自己知道"我只能看最近 256K",而不是默认的 1M。
具体怎么做
好消息是:你不需要手动改配置文件。Hermes Agent 自己有配置能力,你只要告诉它"用 Kimi,上下文限制 256K",它会自动去 config.yaml 里把 max_context_tokens 和相关参数设好。
真正需要你做的只有两步:
- 拿到 Kimi API Key(
sk-kimi-...开头,72 位) - 告诉 Hermes"我要用 Kimi"
剩下的——模型路由、上下文截断策略、token 计算——Hermes 自己会搞定。它甚至会在后台检查配置是否生效,不需要你打开 YAML 文件手改。
一个小提醒
如果你之前用其他模型(比如 Claude 或 GPT-4)习惯了大上下文,切到 Kimi 后要注意:
- 长文档分块处理,别一次性塞整本书
- 代码审查时,优先给关键文件而不是整个仓库
- 会话久了如果模型"失忆",大概率是 256K 到了上限,开新会话即可
总结
Kimi + Hermes Desktop 的组合很可用,但必须主动配置 256K 上下文限制。好消息是这个配置本身零门槛——你知道有这件事,告诉 Hermes 一声,剩下的它自己处理。
发布于 Hermes Desktop + Kimi 实测环境