摘要
2026 年 6 月 12 日,月之暗面(Moonshot AI)正式发布编程专用模型 Kimi K2.7-Code,在 K2.6 基础上实现 Kimi Code Bench v2 得分从 50.9 跃升至 62.0(+21.8%),同时推理 token 消耗减少约 30%。模型以 1T 总参数 MoE 架构、32B 激活参数、256K 上下文窗口亮相,并以 Modified MIT 许可证在 Hugging Face 上开放完整权重。虽然绝对性能仍落后于 GPT-5.5(69.0)和 Claude Opus 4.8(67.4),但差距正在快速缩小——这是「开源追赶」叙事的最新章节。
模型架构:1T 参数 MoE,32B 干活
K2.7-Code 延续了 K2.5/K2.6 的 Mixture-of-Experts 架构,但将专家路由和训练目标重新聚焦于编程场景。根据官方 Hugging Face 模型卡,关键参数如下:
| 规格 | 数值 |
|---|---|
| 总参数 | 1T |
| 激活参数(每 token) | 32B |
| 专家数量 | 384(每 token 选 8 个 + 1 个共享专家) |
| 层数 | 61(含 1 个 Dense 层) |
| 注意力机制 | MLA(Multi-head Latent Attention) |
| 激活函数 | SwiGLU |
| 上下文窗口 | 256K(262,144 tokens) |
| 视觉编码器 | MoonViT(约 400M 参数) |
| 默认最大输出 | 32,768 tokens |
| 量化 | 原生 INT4 |
| 推理引擎 | vLLM、SGLang、KTransformers |
MLA 注意力机制将 KV cache 压缩为更小的隐空间表示,在长上下文场景下有效控制显存开销。SwiGLU 激活函数则是当前高性能 LLM 的标准选择。MoonViT 视觉编码器(400M 参数)赋予模型图像和视频输入能力——你可以把一张 UI 截图、一个 Figma 导出或一段 bug 复现录屏丢给它,让它直接定位并修复代码。
值得注意的是,K2.7-Code 强制开启 Thinking 模式,不可关闭;采样参数也被锁定(temperature=1.0, top_p=0.95, n=1, penalties=0.0)。这一设计约束意味着模型始终以推理链路工作,但约 30% 的推理 token 削减让「始终思考」的成本显著低于 K2.6。
基准测试:全面超越 K2.6,逼近闭源前沿
月之暗面在模型卡中公布了六项基准对比,K2.7-Code vs K2.6 vs GPT-5.5 vs Claude Opus 4.8:
| 基准 | K2.6 | K2.7-Code | GPT-5.5 | Opus 4.8 | K2.7 vs K2.6 |
|---|---|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | 69.0 | 67.4 | +21.8% |
| Program Bench | 48.3 | 53.6 | 69.1 | 63.8 | +11.0% |
| MLS Bench Lite | 26.7 | 35.1 | 35.5 | 42.8 | +31.5% |
| Kimi Claw 24/7 Bench | 42.9 | 46.9 | 52.8 | 50.4 | +9.3% |
| MCP Atlas | 69.4 | 76.0 | 79.4 | 81.3 | +9.5% |
| MCP Mark Verified | 72.8 | 81.1 | 92.9 | 76.4 | +11.4% |
来源:Moonshot AI Hugging Face 模型卡。K2.7-Code 和 K2.6 通过 Kimi Code CLI 测试(thinking 模式开启),GPT-5.5 以 Codex xhigh 模式运行,Opus 4.8 以 Claude Code xhigh 模式运行。
三个关键观察:
1)编程能力大幅跃升。 Kimi Code Bench v2 的 +21.8% 是最大亮点。该基准覆盖 10+ 主流编程语言和完整生产级技术栈,包括后端服务、基础设施、性能工程、系统编程、安全、前端及 ML/数据工程等真实场景。Program Bench(+11.0%)要求从二进制文件和文档出发重建完整程序,对抗 248,000+ 的 fuzz 测试用例——这是对编程 agent 综合能力的严苛考验。
2)MLS Bench Lite 接近 GPT-5.5。 在评估 AI 系统能否发明可泛化、可扩展 ML 方法的 MLS-Bench-Lite 上,K2.7-Code 的 35.1 分已极为接近 GPT-5.5 的 35.5 分。对于开源模型而言,这是一个标志性结果。
3)Agentic 能力全面进步。 MCP Atlas(+9.5%)和 MCP Mark Verified(+11.4%)测试模型在 Model Context Protocol 下的工具调用能力——K2.7-Code 在 MCP Mark Verified 上甚至以 81.1 分超越了 Claude Opus 4.8 的 76.4 分。"编程好"和"会用工具"在 K2.7-Code 上实现了同步提升。
需要注意的是,以上均为厂商第一方数据,独立第三方评测仍在进行中。VentureBeat 报道中已有开发者对基准选择提出质疑,建议将其作为参考而非采购决策的唯一依据。
推理 token 减少 30%:不是噱头,是真省钱
K2.7-Code 最被低估的改进,正是这约 30% 的推理 token 削减。
在 agentic coding 场景中,模型并非一次性输出代码——它需要规划、读文件、写代码、跑测试、读输出、调整方案,循环往复成百上千步。每一步的"思考"过程都会产生推理 token,而推理 token 在绝大多数 API 定价中按输出 token 计费。一个 30% 的削减,在长时间运行的 agent 循环中会形成复利效应:
- 更低的单任务成本:同样的任务,输出 token 消耗减少约三成;
- 更快的交互响应:推理步骤缩短,CLI 场景下的体感延迟降低;
- 更多的有效步数:在 256K 上下文窗口内,能容纳更多轮次的 plan-edit-verify 循环。
月之暗面将这一改进描述为"减少过度思考"(less overthinking)。K2.6 在某些任务上曾出现推理链路过长但最终输出质量并未提升的现象,K2.7-Code 针对性地优化了这一问题,在推理效率和输出质量之间找到了更好的平衡。
开源策略与部署生态
K2.7-Code 的发布策略值得关注:开权重 + API + 自研 agent 产品三条线并行。
开源方面,完整权重以 Modified MIT 许可证在 Hugging Face 上发布,支持 vLLM、SGLang 和 KTransformers 部署。权重体积约 595GB,属于服务器级部署目标,建议在 H100/H200 级别硬件上运行。Modified MIT 许可证允许大规模商业使用,主要约束是署名要求——相比许多限制竞争或规模的"开放"许可证,灵活性显著更高。
API 方面,官方 Kimi API 完全兼容 OpenAI SDK 格式,模型名称为 kimi-k2.7-code。定价为:
| 计费项 | 价格(每百万 token) |
|---|---|
| 输入(缓存命中) | $0.19 |
| 输入(缓存未命中) | $0.95 |
| 输出 | $4.00 |
对比 Claude Opus 4.8 的 $5.00 / $25.00(输入/输出),K2.7-Code 的输出价格仅为前者的 16%。即使与 GPT-5.5 相比,第三方估计价差可达 12 倍。对于日运行数千次的高频 agent 场景,这是一个足以改变模型选型决策的成本差距。
产品方面,月之暗面同步推出 Kimi Code——一个终端原生的开源编程 agent,订阅计划 $19/月起。同时还预告了"6x 高速模式"(尚未公布具体上线时间)。
第三方托管生态也在快速跟进:OpenRouter($0.75/$3.50)、Together AI、Fireworks、Novita、Cloudflare Workers AI 等均已上线 K2.7-Code。
竞争定位:开源追赶叙事的最新章节
将 K2.7-Code 放入当前编程模型格局中观察,月之暗面的策略路径非常清晰:
vs K2.6:K2.7-Code 是 K2.6 的编程专精版。K2.6 仍是更全面的通用模型(对话、推理、内容生成),而 K2.7-Code 在编程和 agentic 任务上以更低的推理成本实现了显著更好的性能。两者共享相同架构,从 K2.6 迁移到 K2.7-Code 的切换成本很低。
vs GPT-5.5 / Claude Opus 4.8:K2.7-Code 在绝对基准分数上仍落后于两个闭源前沿模型,尤其在 Program Bench 上差距明显(53.6 vs 69.1/63.8)。但 MLS Bench Lite 上的接近(35.1 vs 35.5)和 MCP Mark Verified 上的超越(81.1 vs 76.4)说明,在特定场景下开源模型已具备与闭源模型正面竞争的能力。考虑到巨大的价格差距,对于成本敏感的中小团队和以 agent 循环为主的高频场景,K2.7-Code 的性价比优势极为突出。
在开源编程模型中的位置:K2.7-Code 是目前开源编程模型中综合实力最强的选手之一。与 GLM-5.1、DeepSeek V4-Pro、Qwen3-Coder-Next 等相比,K2.7-Code 在长程 agent 任务和工具调用方面具有差异化优势,且 Modified MIT 许可证在商业友好度上不输 Apache 2.0。
局限与审慎
真实评价一个模型,需要同时看到它的短板:
- 所有基准数据均为厂商第一方,独立第三方评测尚未出炉。VentureBeat 报道中已有开发者公开质疑基准选择,建议等待社区验证后再做关键决策。
- Thinking 模式不可关闭,对于只需快速确定性输出的场景(如简单的代码补全),强制推理增加了不必要的成本。
- 采样参数锁定,temperature=0 等常见确定性编码场景无法使用,迁移现有集成时需注意兼容性。
- 595GB 的权重体积使自部署门槛较高,实际上大多数用户仍将通过 API 访问。
- 多步工具调用需保留
reasoning_content,丢失该字段会导致请求失败,对 agent 框架的适配有一定要求。
结语
Kimi K2.7-Code 的发布,标志着开源编程模型在"性能追赶 + 成本碾压"的双轨策略上又迈出了坚实一步。+21.8% 的基准提升和 30% 的推理 token 削减,共同构成了一个清晰的信号:月之暗面不打算在绝对性能上与 GPT-5.5 硬碰硬,而是以开源 + 低成本 + 编程专项化的组合拳,蚕食闭源模型对成本敏感型用户的市场。
对于正在构建 AI 编程 agent 的团队来说,K2.7-Code 值得认真评估——它可能不是"最强"的模型,但很可能是"最划算"的那个。
参考来源:Moonshot AI Hugging Face 模型卡、MarkTechPost、Eigent AI、AIMLAPI、VentureBeat、CloudPrice

