Kimi K2.7 Code：月之暗面开源编程模型，推理 token 减少 30%，性能反超 21.8%

摘要

2026 年 6 月 12 日，月之暗面（Moonshot AI）正式发布编程专用模型 Kimi K2.7-Code，在 K2.6 基础上实现 Kimi Code Bench v2 得分从 50.9 跃升至 62.0（+21.8%），同时推理 token 消耗减少约 30%。模型以 1T 总参数 MoE 架构、32B 激活参数、256K 上下文窗口亮相，并以 Modified MIT 许可证在 Hugging Face 上开放完整权重。虽然绝对性能仍落后于 GPT-5.5（69.0）和 Claude Opus 4.8（67.4），但差距正在快速缩小——这是「开源追赶」叙事的最新章节。

模型架构：1T 参数 MoE，32B 干活

K2.7-Code 延续了 K2.5/K2.6 的 Mixture-of-Experts 架构，但将专家路由和训练目标重新聚焦于编程场景。根据官方 Hugging Face 模型卡，关键参数如下：

规格	数值
总参数	1T
激活参数（每 token）	32B
专家数量	384（每 token 选 8 个 + 1 个共享专家）
层数	61（含 1 个 Dense 层）
注意力机制	MLA（Multi-head Latent Attention）
激活函数	SwiGLU
上下文窗口	256K（262,144 tokens）
视觉编码器	MoonViT（约 400M 参数）
默认最大输出	32,768 tokens
量化	原生 INT4
推理引擎	vLLM、SGLang、KTransformers

MLA 注意力机制将 KV cache 压缩为更小的隐空间表示，在长上下文场景下有效控制显存开销。SwiGLU 激活函数则是当前高性能 LLM 的标准选择。MoonViT 视觉编码器（400M 参数）赋予模型图像和视频输入能力——你可以把一张 UI 截图、一个 Figma 导出或一段 bug 复现录屏丢给它，让它直接定位并修复代码。

值得注意的是，K2.7-Code 强制开启 Thinking 模式，不可关闭；采样参数也被锁定（temperature=1.0, top_p=0.95, n=1, penalties=0.0）。这一设计约束意味着模型始终以推理链路工作，但约 30% 的推理 token 削减让「始终思考」的成本显著低于 K2.6。

基准测试：全面超越 K2.6，逼近闭源前沿

月之暗面在模型卡中公布了六项基准对比，K2.7-Code vs K2.6 vs GPT-5.5 vs Claude Opus 4.8：

基准	K2.6	K2.7-Code	GPT-5.5	Opus 4.8	K2.7 vs K2.6
Kimi Code Bench v2	50.9	62.0	69.0	67.4	+21.8%
Program Bench	48.3	53.6	69.1	63.8	+11.0%
MLS Bench Lite	26.7	35.1	35.5	42.8	+31.5%
Kimi Claw 24/7 Bench	42.9	46.9	52.8	50.4	+9.3%
MCP Atlas	69.4	76.0	79.4	81.3	+9.5%
MCP Mark Verified	72.8	81.1	92.9	76.4	+11.4%

来源：Moonshot AI Hugging Face 模型卡。K2.7-Code 和 K2.6 通过 Kimi Code CLI 测试（thinking 模式开启），GPT-5.5 以 Codex xhigh 模式运行，Opus 4.8 以 Claude Code xhigh 模式运行。

三个关键观察：

1）编程能力大幅跃升。 Kimi Code Bench v2 的 +21.8% 是最大亮点。该基准覆盖 10+ 主流编程语言和完整生产级技术栈，包括后端服务、基础设施、性能工程、系统编程、安全、前端及 ML/数据工程等真实场景。Program Bench（+11.0%）要求从二进制文件和文档出发重建完整程序，对抗 248,000+ 的 fuzz 测试用例——这是对编程 agent 综合能力的严苛考验。

2）MLS Bench Lite 接近 GPT-5.5。 在评估 AI 系统能否发明可泛化、可扩展 ML 方法的 MLS-Bench-Lite 上，K2.7-Code 的 35.1 分已极为接近 GPT-5.5 的 35.5 分。对于开源模型而言，这是一个标志性结果。

3）Agentic 能力全面进步。 MCP Atlas（+9.5%）和 MCP Mark Verified（+11.4%）测试模型在 Model Context Protocol 下的工具调用能力——K2.7-Code 在 MCP Mark Verified 上甚至以 81.1 分超越了 Claude Opus 4.8 的 76.4 分。"编程好"和"会用工具"在 K2.7-Code 上实现了同步提升。

需要注意的是，以上均为厂商第一方数据，独立第三方评测仍在进行中。VentureBeat 报道中已有开发者对基准选择提出质疑，建议将其作为参考而非采购决策的唯一依据。

推理 token 减少 30%：不是噱头，是真省钱

K2.7-Code 最被低估的改进，正是这约 30% 的推理 token 削减。

在 agentic coding 场景中，模型并非一次性输出代码——它需要规划、读文件、写代码、跑测试、读输出、调整方案，循环往复成百上千步。每一步的"思考"过程都会产生推理 token，而推理 token 在绝大多数 API 定价中按输出 token 计费。一个 30% 的削减，在长时间运行的 agent 循环中会形成复利效应：

更低的单任务成本：同样的任务，输出 token 消耗减少约三成；
更快的交互响应：推理步骤缩短，CLI 场景下的体感延迟降低；
更多的有效步数：在 256K 上下文窗口内，能容纳更多轮次的 plan-edit-verify 循环。

月之暗面将这一改进描述为"减少过度思考"（less overthinking）。K2.6 在某些任务上曾出现推理链路过长但最终输出质量并未提升的现象，K2.7-Code 针对性地优化了这一问题，在推理效率和输出质量之间找到了更好的平衡。

开源策略与部署生态

K2.7-Code 的发布策略值得关注：开权重 + API + 自研 agent 产品三条线并行。

开源方面，完整权重以 Modified MIT 许可证在 Hugging Face 上发布，支持 vLLM、SGLang 和 KTransformers 部署。权重体积约 595GB，属于服务器级部署目标，建议在 H100/H200 级别硬件上运行。Modified MIT 许可证允许大规模商业使用，主要约束是署名要求——相比许多限制竞争或规模的"开放"许可证，灵活性显著更高。

API 方面，官方 Kimi API 完全兼容 OpenAI SDK 格式，模型名称为 kimi-k2.7-code。定价为：

计费项	价格（每百万 token）
输入（缓存命中）	$0.19
输入（缓存未命中）	$0.95
输出	$4.00

对比 Claude Opus 4.8 的 $5.00 / $25.00（输入/输出），K2.7-Code 的输出价格仅为前者的 16%。即使与 GPT-5.5 相比，第三方估计价差可达 12 倍。对于日运行数千次的高频 agent 场景，这是一个足以改变模型选型决策的成本差距。

产品方面，月之暗面同步推出 Kimi Code——一个终端原生的开源编程 agent，订阅计划 $19/月起。同时还预告了"6x 高速模式"（尚未公布具体上线时间）。

第三方托管生态也在快速跟进：OpenRouter（$0.75/$3.50）、Together AI、Fireworks、Novita、Cloudflare Workers AI 等均已上线 K2.7-Code。

竞争定位：开源追赶叙事的最新章节

将 K2.7-Code 放入当前编程模型格局中观察，月之暗面的策略路径非常清晰：

vs K2.6：K2.7-Code 是 K2.6 的编程专精版。K2.6 仍是更全面的通用模型（对话、推理、内容生成），而 K2.7-Code 在编程和 agentic 任务上以更低的推理成本实现了显著更好的性能。两者共享相同架构，从 K2.6 迁移到 K2.7-Code 的切换成本很低。

vs GPT-5.5 / Claude Opus 4.8：K2.7-Code 在绝对基准分数上仍落后于两个闭源前沿模型，尤其在 Program Bench 上差距明显（53.6 vs 69.1/63.8）。但 MLS Bench Lite 上的接近（35.1 vs 35.5）和 MCP Mark Verified 上的超越（81.1 vs 76.4）说明，在特定场景下开源模型已具备与闭源模型正面竞争的能力。考虑到巨大的价格差距，对于成本敏感的中小团队和以 agent 循环为主的高频场景，K2.7-Code 的性价比优势极为突出。

在开源编程模型中的位置：K2.7-Code 是目前开源编程模型中综合实力最强的选手之一。与 GLM-5.1、DeepSeek V4-Pro、Qwen3-Coder-Next 等相比，K2.7-Code 在长程 agent 任务和工具调用方面具有差异化优势，且 Modified MIT 许可证在商业友好度上不输 Apache 2.0。

局限与审慎

真实评价一个模型，需要同时看到它的短板：

所有基准数据均为厂商第一方，独立第三方评测尚未出炉。VentureBeat 报道中已有开发者公开质疑基准选择，建议等待社区验证后再做关键决策。
Thinking 模式不可关闭，对于只需快速确定性输出的场景（如简单的代码补全），强制推理增加了不必要的成本。
采样参数锁定，temperature=0 等常见确定性编码场景无法使用，迁移现有集成时需注意兼容性。
595GB 的权重体积使自部署门槛较高，实际上大多数用户仍将通过 API 访问。
多步工具调用需保留 reasoning_content，丢失该字段会导致请求失败，对 agent 框架的适配有一定要求。

结语

Kimi K2.7-Code 的发布，标志着开源编程模型在"性能追赶 + 成本碾压"的双轨策略上又迈出了坚实一步。+21.8% 的基准提升和 30% 的推理 token 削减，共同构成了一个清晰的信号：月之暗面不打算在绝对性能上与 GPT-5.5 硬碰硬，而是以开源 + 低成本 + 编程专项化的组合拳，蚕食闭源模型对成本敏感型用户的市场。

对于正在构建 AI 编程 agent 的团队来说，K2.7-Code 值得认真评估——它可能不是"最强"的模型，但很可能是"最划算"的那个。

参考来源：Moonshot AI Hugging Face 模型卡、MarkTechPost、Eigent AI、AIMLAPI、VentureBeat、CloudPrice