DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogKimi K2 0905
KI

Kimi K2 0905

Kimi K2-Instruct-0905

Release date: 2025-09-05更新于: 2025-09-06 04:24:471,295
Live demoGitHubHugging FaceCompare
Parameters
10000.0亿
Context length
256K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Kimi K2 0905

Model basics

Reasoning traces
Not supported
Thinking modes
Thinking modes not supported
Context length
256K tokens
Max output length
4096 tokens
Model type
聊天大模型
Release date
2025-09-05
Model file size
1.01TB
MoE architecture
Yes
Total params / Active params
10000.0B / 320B
Knowledge cutoff
No data
Kimi K2 0905

Open source & experience

Code license
MIT License
Weights license
MIT License- 免费商用授权
GitHub repo
GitHub link unavailable
Hugging Face
https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
Live demo
https://www.kimi.com/
Kimi K2 0905

Official resources

Paper
No paper available
DataLearnerAI blog
Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型
Kimi K2 0905

API details

API speed
2/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$0.60$2.5
Kimi K2 0905

Benchmark Results

Thinking
Thinking mode details (1)
Tool usage

综合评估

1 evaluations
Benchmark / mode
Score
Rank/total
HLE
OnWith tools
21.70
58 / 114

编程与软件工程

1 evaluations
Benchmark / mode
Score
Rank/total
SWE-bench Verified
OnWith tools
69.20
44 / 90

数学推理

1 evaluations
Benchmark / mode
Score
Rank/total
AIME2025
OnWith tools
75.20
68 / 107

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal-Bench
OnWith tools
44.50
6 / 35
查看评测深度分析与其他模型对比
Kimi K2 0905

Publisher

Moonshot AI
Moonshot AI
View publisher details
Kimi K2-Instruct-0905

Model Overview

在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列 之后,Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本,这次升级把上下文长度从 128K 扩展到 256K,并在自主智能体(Agentic)编码与前端代码生成体验上大幅提升,属于一次非常有诚意的迭代:同样是 1 万亿总参数的稀疏 MoE 架构,但在真实开发与工具调用任务中表现更稳定、更可靠。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

[TOC]

Kimi K2 0905 的最大升级是“超长上下文”和工具调用

7 月份,Moonshot AI 发布了 Kimi K2 的开放权重版本,主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计,当时上下文长度为 128K。该版本以编码与复杂任务分解见长,并引发社区讨论与媒体关注。但模型依然存在几个瓶颈:

  • 上下文长度不足 → 对长周期任务支持有限
  • 跨场景智能不稳 → 工具调用和复杂逻辑容易出错
  • 前端体验欠佳 → 生成的 UI 代码常常偏“实用”而缺乏美学

本次版本把上下文直接提升至 256K,并针对工具调用逻辑与对话链路做了系统优化,目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下:

更强的 Agentic 编码智能
在代码修复、跨语言重构与大型仓库导航中,Kimi K2 0905 倾向先“读全局”,再主动规划步骤并调用工具(如 Bash、编辑器或外部 API),最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。

因为真实工程并非“写一段代码就完事”,而是端到端:定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”,而不是“建议机器”。

前端开发体验的结构化提升
许多模型能让页面运行起来,但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然与一致的设计体系。这意味着在真实团队协作中,它生成的视图层更容易落地与复用,减少设计还原和返工成本。

更可靠的工具调用(Tool Calling)
此外,Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具,并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线,便于直接拼装成业务代理。

性能对比:Kimi K2 0905 在多项基准测试中提升明显

Moonshot AI 公布的评测数据表明,K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。

下表展示了Kimi K2 0905的评测结果:

基准任务K2-0905K2-0711Qwen3-CoderGLM-4.5DeepSeek-V3.1Claude-Sonnet-4Claude-Opus-4
SWE-Bench verified69.2 ± 0.6365.869.6*64.2*66.0*72.7*72.5*
SWE-Bench Multilingual55.9 ± 0.7247.354.7*52.754.5*53.3*-
Multi-SWE-Bench33.5 ± 0.2831.332.731.729.035.7-
Terminal-Bench44.5 ± 2.0337.537.5*39.9*31.3*36.4*43.2*
SWE-Dev66.6 ± 0.7261.964.763.253.367.1-
注:带 * 的数据为官方报告或公开排行榜结果。





数据来源:https://www.datalearner.com/compare/result?modelInputString=672,625,665,636,639&benchmarkInputString=35,46



这些数字意味着什么?首先,在多语言与真实开发任务(如 SWE-Bench Multilingual、SWE-Dev)上,0905 相比 0711 提升 4.7–8.6 个百分点;其次,在 Terminal-Bench 这类“命令行+环境操作”的综合任务中,0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强,是这次升级的直观结论。

更关键的是,**生态侧的“同步支持”**也在加速:Groq 宣布自 09/04 起在 GroqCloud 上线 0905,并给出了 256K 上下文、200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间,进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型。

Kimi K2 0905 依然完全开源

与 7 月份开源的 Kimi K2 一样,本次的 Kimi K2 0905 也完全开源,并提供免费商用授权。不过需要注意的是,Kimi K2 的开源协议并非传统的 MIT 协议,而是新增了一个额外义务:如果用于大型商用产品(>1 亿月活用户或 >2000 万美元月收入),必须在界面上显著展示『Kimi K2』。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码