Kimi K2.5

Name: Kimi K2.5
Availability: InStock
Author: Moonshot AI

多模态大模型

Kimi K2.5

Release date: 2026-01-27更新于: 2026-03-08 21:06:20知识截止: 2024-045,176

Live demo GitHub Hugging Face Compare

Parameters

1000B

Context length

256K

Chinese support

Supported

Reasoning ability

Kimi K2.5 is an AI model published by Moonshot AI, released on 2026-01-27, for 多模态大模型, with 10000.0B parameters, and 256K tokens context length, requiring about 595GB storage, under the Modified MIT License license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Kimi K2.5

Model basics

Reasoning traces

Supported

Thinking modes

Standard ModeThinking Level · Extended

Context length

256K tokens

Max output length

16384 tokens

Model type

多模态大模型

Release date

2026-01-27

Model file size

595GB

MoE architecture

Yes

Total params / Active params

1000B / 32B

Knowledge cutoff

2024-04

Kimi K2.5

Open source & experience

Code license

Modified MIT License

Weights license

Modified MIT License- 免费商用授权

GitHub repo

https://github.com/MoonshotAI/Kimi-K2

Hugging Face

https://huggingface.co/moonshotai/Kimi-K2.5

Live demo

https://www.kimi.com/en

Kimi K2.5

Official resources

Paper

Kimi K2.5: Visual Agentic Intelligence

DataLearnerAI blog

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

Kimi K2.5

API details

API speed

2/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Text	$0.6	$3
Image	$0.6	--

Cached pricingCache

Modality	Input cache	Output cache
Text	$0.1	--
Image	$0.1	--

Kimi K2.5

Benchmark Results

Kimi K2.5 currently shows benchmark results led by HLE (17 / 149, score 50.20), LiveCodeBench (14 / 118, score 85), GPQA Diamond (31 / 175, score 87.60). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

6 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Thinking Mode

87.60

31 / 175

MMLU Pro

Thinking Mode

78.50

64 / 124

ARC-AGI

Thinking Mode

65.30

31 / 65

HLE

Thinking Mode

30.10

69 / 149

HLE

Thinking ModeTools

50.20

17 / 149

ARC-AGI-2

Thinking Mode

11.80

35 / 58

编程与软件工程

4 evaluations

Benchmark / mode

Score

Rank/total

LiveCodeBench

Thinking Mode

14 / 118

SWE-bench Verified

Thinking ModeTools

76.80

22 / 103

SWE-bench Multilingual

Thinking Mode

8 / 17

SWE-Bench Pro - Public

Thinking ModeTools

50.70

25 / 36

数学推理

3 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Thinking Mode

96.10

21 / 106

AIME 2026

Thinking Mode

92.50

10 / 14

IMO-AnswerBench

Thinking Mode

81.80

12 / 17

常识推理

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Thinking Mode

46.80

13 / 27

AI Agent - 信息收集

1 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

Thinking ModeToolsInternet

60.60

27 / 43

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal Bench 2.0

Thinking ModeTools

50.80

30 / 43

生产力知识

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

Thinking Mode

14 / 20

长上下文能力

1 evaluations

Benchmark / mode

Score

Rank/total

AA-LCR

Thinking Mode

10 / 13

OpenClaw智能体能力综合测评

2 evaluations

Benchmark / mode

Score

Rank/total

Pinch Bench

Thinking ModeTools

84.80

17 / 37

Claw Bench

Thinking ModeTools

81.70

18 / 29

View benchmark analysis Compare with other models

Kimi K2.5

Publisher

Moonshot AI

View publisher details

Kimi K2.5

Model Overview

Kimi K2.5 是 Moonshot AI 于 2026 年 1 月推出的新一代开源多模态大语言模型。作为 Kimi K2 系列的迭代版本，K2.5 延续了前代模型的混合专家架构（Mixture-of-Experts, MoE），并在视觉理解、工具使用能力和智能体（Agentic）功能方面进行了升级。该模型基于约 15 万亿个混合视觉与文本 token 在 Kimi-K2-Base 基础上进行持续预训练，实现了原生多模态能力与高级智能体功能的整合。

Moonshot AI 采用了"静默发布"策略，用户通过网页端访问时发现原有 K2 模型已自动切换为 K2.5 版本，这种部署方式旨在收集真实用户反馈并持续优化模型表现。

二、核心技术架构

2.1 基础架构参数

Kimi K2.5 保持了与 K2 系列一致的 MoE 架构设计，具体技术规格如下：

技术参数	数值
总参数量	1 万亿（1T）
激活参数量	320 亿（32B）
架构类型	混合专家模型（MoE）
层数（含稠密层）	61 层
稠密层数量	1 层
注意力隐藏层维度	7168
专家隐藏层维度（每专家）	2048
注意力头数量	64
专家总数	384
每 token 选定专家数	8
共享专家数量	1
词表大小	160K
上下文长度	256K tokens
注意力机制	MLA（Multi-head Latent Attention）
激活函数	SwiGLU
视觉编码器	MoonViT（4 亿参数）

2.2 架构特点

稀疏激活机制：通过 384 个专家中仅激活 8 个的方式，模型在保持 1 万亿参数规模的同时，推理时仅需计算 320 亿参数。

长上下文窗口： 256K tokens 的上下文长度是 K2 系列（128K）的两倍，使模型能够处理更长的文档、视频序列和多轮对话。

视觉编码器 MoonViT：集成 4 亿参数的视觉编码器，支持对图像和视频内容的原生理解，无需依赖外部视觉模型进行模态转换。

三、核心能力特性

3.1 原生多模态能力

Kimi K2.5 实现了视觉-语言联合建模：

视觉知识理解：基于视觉-语言 token 的预训练，模型在视觉知识问答、跨模态推理方面具备能力
视觉 grounded 工具使用：能够基于视觉输入进行智能体工具调用，例如根据界面截图执行操作
图像到代码生成：支持从 UI 设计图、视频工作流直接生成对应代码实现
视频理解：可处理视频输入并进行内容描述、分析和推理（注：视频对话功能目前仅在官方 API 中提供实验性支持）

3.2 双模式推理系统

K2.5 提供两种互补的推理模式，通过 API 参数进行切换：

思考模式（Thinking Mode）：

启用深度推理过程，输出包含 reasoning_content 和最终回答
推荐温度参数：1.0
适用于数学证明、复杂逻辑推理、代码调试等需要逐步分析的任务

即时模式（Instant Mode）：

直接生成回答，无显式推理过程
推荐温度参数：0.6
适用于日常对话、简单问答、快速响应场景

用户可通过在 API 请求中设置 extra_body={'thinking': {'type': 'disabled'}} 来切换到即时模式。

3.3 智能体集群（Agent Swarm）

K2.5 引入了从单智能体向多智能体协同的范式转变：

任务分解：能够自动将复杂任务分解为可并行执行的子任务
动态实例化：根据任务领域动态创建专门的领域特定智能体
协调执行：支持最多 100 个子智能体的自组织、协调式执行方案
工具链编排：可自主编排工具链进行视觉数据处理，实现端到端的自动化工作流

四、训练与优化技术

4.1 持续预训练

K2.5 在 Kimi-K2-Base 基础上进行了持续预训练：

训练数据规模：约 15 万亿混合视觉与文本 token
数据构成：包含视觉-语言对齐数据、代码-图像配对数据、多模态对话数据等
训练稳定性：沿用了 K2 系列的 MuonClip 优化器，实现了大规模训练中的零不稳定现象

4.2 强化学习与对齐

继承了 K2 系列的强化学习技术：

可验证与不可验证奖励结合：对于数学、编程等可验证任务使用确定性奖励，对于开放式任务采用模型自评判机制
rubric-based 评估：模型作为自身的评判者，为不可验证任务提供可扩展的评分反馈
在线策略更新：使用可验证奖励的在线 rollout 持续更新评判模型，保持评估准确性与策略同步进化

五、API 使用与部署

5.1 接口兼容性

Kimi K2.5 提供与 OpenAI/Anthropic 兼容的 API 接口，支持以下功能：

标准对话补全：支持文本、图像、视频输入
工具调用（Tool Calling）：支持 function calling 和外部工具集成
流式输出：支持 SSE 流式响应
推理过程可见：思考模式下可通过 reasoning_content 字段获取模型推理过程

5.2 推荐推理参数

根据官方文档建议：

top_p： 0.95
temperature：思考模式：1.0即时模式：0.6
最大输出长度：根据任务需求设置（支持最高 8192 tokens）

5.3 部署支持

模型支持主流推理引擎部署：

vLLM
SGLang
KTransformers
TensorRT-LLM

推荐硬件配置包括 NVIDIA Hopper（H100、H200）和 Blackwell（B100、B200、GB200）系列 GPU。

六、模型定位与开源策略

6.1 版本演进关系

Kimi K2.5 是 K2 系列的重要迭代，而非全新架构：

Kimi K2（2025年7月）：基础 MoE 模型，文本模态，128K 上下文
Kimi K2 Thinking（2025年11月）：增加深度推理能力，256K 上下文
Kimi K2.5（2026年1月）：整合视觉能力、优化智能体功能，实现多模态统一

6.2 开源许可

K2.5 延续了 Moonshot AI 的开放策略，模型权重托管于 Hugging Face。开源协议为修改版 MIT 许可证，对月活跃用户超过 1 亿或月收入超过 2000 万美元的企业要求标注"Kimi K2"品牌标识。

七、技术局限性与注意事项

根据官方文档披露，当前版本存在以下限制：

推理效率：在处理困难推理任务或工具定义不明确时，模型可能生成过量 token，导致输出截断或不完整的工具调用
工具使用权衡：在某些任务上启用工具使用可能导致性能下降
软件开发场景：单次提示（one-shot prompting）在完成完整软件项目时表现不如基于智能体框架的使用方式
视频功能：视频对话功能目前仅在官方 API 中作为实验性功能提供

八、总结

Kimi K2.5 是 Moonshot AI 在开源多模态大模型领域的最新发布。通过保持 1 万亿参数规模的 MoE 架构，同时增加原生视觉理解能力和智能体集群功能，K2.5 在效率与能力之间取得了平衡。其 256K 上下文窗口、双模式推理系统和工具使用能力，使其成为当前开源生态中具备竞争力的通用人工智能基础模型。

该模型的发布体现了 Moonshot AI 在"智能体智能"（Agentic Intelligence）领域的技术路线，展示了中国 AI 公司在模型架构创新、训练效率优化和开源生态建设方面的投入。随着多模态能力和智能体功能的完善，K2.5 为研究人员和开发者提供了一个可扩展、可部署的高性能基础模型选择。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送