DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型

2025/09/06 04:23:04
477 views
AIAgentK2KimiKimiK20905MoE架构

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革大模型工具使用的三次进化:从 Function Calling 到程序化编排为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑:智谱类DeepResearch的大模型产品Zread介绍,GitHub仓库解读神器OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列 之后,Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本,这次升级把上下文长度从 128K 扩展到 256K,并在自主智能体(Agentic)编码与前端代码生成体验上大幅提升,属于一次非常有诚意的迭代:同样是 1 万亿总参数的稀疏 MoE 架构,但在真实开发与工具调用任务中表现更稳定、更可靠。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

  • Kimi K2 0905 的最大升级是“超长上下文”和工具调用
  • 性能对比:Kimi K2 0905 在多项基准测试中提升明显
  • Kimi K2 0905 依然完全开源

Kimi K2 0905 的最大升级是“超长上下文”和工具调用

7 月份,Moonshot AI 发布了 Kimi K2 的开放权重版本,主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计,当时上下文长度为 128K。该版本以编码与复杂任务分解见长,并引发社区讨论与媒体关注。但模型依然存在几个瓶颈:

  • 上下文长度不足 → 对长周期任务支持有限
  • 跨场景智能不稳 → 工具调用和复杂逻辑容易出错
  • 前端体验欠佳 → 生成的 UI 代码常常偏“实用”而缺乏美学

本次版本把上下文直接提升至 256K,并针对工具调用逻辑与对话链路做了系统优化,目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下:

更强的 Agentic 编码智能 在代码修复、跨语言重构与大型仓库导航中,Kimi K2 0905 倾向先“读全局”,再主动规划步骤并调用工具(如 Bash、编辑器或外部 API),最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。

因为真实工程并非“写一段代码就完事”,而是端到端:定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”,而不是“建议机器”。

前端开发体验的结构化提升 许多模型能让页面运行起来,但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然与一致的设计体系。这意味着在真实团队协作中,它生成的视图层更容易落地与复用,减少设计还原和返工成本。

更可靠的工具调用(Tool Calling) 此外,Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具,并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线,便于直接拼装成业务代理。

性能对比:Kimi K2 0905 在多项基准测试中提升明显

Moonshot AI 公布的评测数据表明,K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。

下表展示了Kimi K2 0905的评测结果:

基准任务K2-0905K2-0711Qwen3-CoderGLM-4.5DeepSeek-V3.1Claude-Sonnet-4Claude-Opus-4
SWE-Bench verified69.2 ± 0.6365.869.6*64.2*66.0*72.7*72.5*
SWE-Bench Multilingual55.9 ± 0.7247.354.7*52.754.5*53.3*-
Multi-SWE-Bench33.5 ± 0.2831.332.731.729.035.7-
Terminal-Bench44.5 ± 2.0337.537.5*39.9*31.3*36.4*43.2*
SWE-Dev66.6 ± 0.7261.964.763.253.367.1-

注:带 * 的数据为官方报告或公开排行榜结果。

Kimi K2 0905与Kimi K2等模型对比
Kimi K2 0905与Kimi K2等模型对比
数据来源:https://www.datalearner.com/compare/result?modelInputString=672,625,665,636,639&benchmarkInputString=35,46

这些数字意味着什么?首先,在多语言与真实开发任务(如 SWE-Bench Multilingual、SWE-Dev)上,0905 相比 0711 提升 4.7–8.6 个百分点;其次,在 Terminal-Bench 这类“命令行+环境操作”的综合任务中,0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强,是这次升级的直观结论。

更关键的是,**生态侧的“同步支持”**也在加速:Groq 宣布自 09/04 起在 GroqCloud 上线 0905,并给出了 256K 上下文、200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间,进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型。

Kimi K2 0905 依然完全开源

与 7 月份开源的 Kimi K2 一样,本次的 Kimi K2 0905 也完全开源,并提供免费商用授权。不过需要注意的是,Kimi K2 的开源协议并非传统的 MIT 协议,而是新增了一个额外义务:如果用于大型商用产品(>1 亿月活用户或 >2000 万美元月收入),必须在界面上显著展示『Kimi K2』。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905