KI

Kimi K2 0905

聊天大模型Kimi K2Kimi K2

Kimi K2-Instruct-0905

发布时间: 2025-09-05更新于: 2026-06-15 07:18:24.0571,527
模型参数
1万亿
上下文长度
256K
中文支持
支持
推理能力

Kimi K2-Instruct-0905 是由 Moonshot AI 发布的 AI 模型,发布时间为 2025-09-05,定位为 聊天大模型,参数规模约为 1万亿,上下文长度为 256K,模型文件大小约 1.01TB,采用 MIT License 许可,在 AIME2025 上取得 75.20 分。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Kimi K2 0905

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
256K tokens
最大输出长度
4K tokens
模型类型
聊天大模型
输入/输出模态
文本 → 文本
发布时间
2025-09-05
模型文件大小
1.01TB
MoE架构
总参数 / 激活参数
1万亿 / 320亿
知识截止
暂无数据
Kimi K2 0905

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
暂无GitHub开源地址
Kimi K2 0905

官方介绍与博客

Kimi K2 0905

API接口信息

接口速度
2/5
暂无公开的 API 定价信息。
Kimi K2 0905

评测结果

Kimi K2 0905 当前已收录的代表性评测结果包括 Terminal-Bench(6 / 35,得分 44.50)、SWE-bench Verified(59 / 108,得分 69.20)、HLE(97 / 159,得分 21.70)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
21.70
97 / 159

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
75.20
67 / 106
7.10
13 / 16

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
44.50
6 / 35
44.50
6 / 35

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Kimi K2 0905

发布机构

Kimi K2-Instruct-0905

模型解读

在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列 之后,Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本,这次升级把上下文长度从 128K 扩展到 256K,并在自主智能体(Agentic)编码与前端代码生成体验上大幅提升,属于一次非常有诚意的迭代:同样是 1 万亿总参数的稀疏 MoE 架构,但在真实开发与工具调用任务中表现更稳定、更可靠。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

[TOC]

Kimi K2 0905 的最大升级是“超长上下文”和工具调用

7 月份,Moonshot AI 发布了 Kimi K2 的开放权重版本,主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计,当时上下文长度为 128K。该版本以编码与复杂任务分解见长,并引发社区讨论与媒体关注。但模型依然存在几个瓶颈:

  • 上下文长度不足 → 对长周期任务支持有限
  • 跨场景智能不稳 → 工具调用和复杂逻辑容易出错
  • 前端体验欠佳 → 生成的 UI 代码常常偏“实用”而缺乏美学

本次版本把上下文直接提升至 256K,并针对工具调用逻辑与对话链路做了系统优化,目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下:

更强的 Agentic 编码智能
在代码修复、跨语言重构与大型仓库导航中,Kimi K2 0905 倾向先“读全局”,再主动规划步骤并调用工具(如 Bash、编辑器或外部 API),最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。

因为真实工程并非“写一段代码就完事”,而是端到端:定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”,而不是“建议机器”。

前端开发体验的结构化提升
许多模型能让页面运行起来,但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然一致的设计体系。这意味着在真实团队协作中,它生成的视图层更容易落地与复用,减少设计还原和返工成本。

更可靠的工具调用(Tool Calling)
此外,Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具,并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线,便于直接拼装成业务代理。

性能对比:Kimi K2 0905 在多项基准测试中提升明显

Moonshot AI 公布的评测数据表明,K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。

下表展示了Kimi K2 0905的评测结果:

基准任务K2-0905K2-0711Qwen3-CoderGLM-4.5DeepSeek-V3.1Claude-Sonnet-4Claude-Opus-4
SWE-Bench verified69.2 ± 0.6365.869.6*64.2*66.0*72.7*72.5*
SWE-Bench Multilingual55.9 ± 0.7247.354.7*52.754.5*53.3*-
Multi-SWE-Bench33.5 ± 0.2831.332.731.729.035.7-
Terminal-Bench44.5 ± 2.0337.537.5*39.9*31.3*36.4*43.2*
SWE-Dev66.6 ± 0.7261.964.763.253.367.1-
注:带 * 的数据为官方报告或公开排行榜结果。





数据来源:https://www.datalearner.com/compare/result?modelInputString=672,625,665,636,639&benchmarkInputString=35,46



这些数字意味着什么?首先,在多语言与真实开发任务(如 SWE-Bench Multilingual、SWE-Dev)上,0905 相比 0711 提升 4.7–8.6 个百分点;其次,在 Terminal-Bench 这类“命令行+环境操作”的综合任务中,0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强,是这次升级的直观结论。

更关键的是,**生态侧的“同步支持”**也在加速:Groq 宣布自 09/04 起在 GroqCloud 上线 0905,并给出了 256K 上下文200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间,进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型

Kimi K2 0905 依然完全开源

与 7 月份开源的 Kimi K2 一样,本次的 Kimi K2 0905 也完全开源,并提供免费商用授权。不过需要注意的是,Kimi K2 的开源协议并非传统的 MIT 协议,而是新增了一个额外义务:如果用于大型商用产品(>1 亿月活用户或 >2000 万美元月收入),必须在界面上显著展示『Kimi K2』。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码