加载中...

Kimi K2.5

Name: Kimi K2.5
Availability: InStock
Author: Moonshot AI

发布时间: 2026-01-27更新于: 2026-03-08 21:06:20知识截止: 2024-042,403

在线体验 GitHub Hugging Face Compare

模型参数

10000.0亿

上下文长度

256K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Kimi K2.5

模型基本信息

推理过程

支持

思考模式

思考水平 · 关闭 (Off)思考水平 · 扩展 (Extended)

上下文长度

256K tokens

最大输出长度

16384 tokens

模型类型

多模态大模型

发布时间

2026-01-27

模型文件大小

595GB

MoE架构

是

总参数 / 激活参数

10000.0 亿 / 320 亿

知识截止

2024-04

Kimi K2.5

开源和体验地址

代码开源状态

Modified MIT License

预训练权重开源

Modified MIT License- 免费商用授权

GitHub 源码

https://github.com/MoonshotAI/Kimi-K2

Hugging Face

https://huggingface.co/moonshotai/Kimi-K2.5

在线体验

https://www.kimi.com/en

Kimi K2.5

官方介绍与博客

官方论文

Kimi K2.5: Visual Agentic Intelligence

DataLearnerAI博客

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

Kimi K2.5

API接口信息

接口速度

2/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.6	$3
图片	$0.6	--

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.1	--
图片	$0.1	--

Kimi K2.5

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

default

87.60

21 / 158

MMLU Pro

default

78.50

54 / 114

HLE

default

50.20

44 / 111

HLE

default

30.10

44 / 111

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

default

8 / 105

SWE-bench Verified

default

76.80

13 / 90

SWE-Bench Pro - Public

default

50.70

7 / 16

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

default

96.10

20 / 106

AIME 2026

default

92.50

5 / 7

IMO-AnswerBench

default

81.80

5 / 7

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

default

46.80

13 / 27

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

default

74.90

18 / 33

BrowseComp

default

60.60

18 / 33

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

default

50.80

14 / 22

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

default

8 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

default

8 / 11

查看评测深度分析与其他模型对比

Kimi K2.5

发布机构

Moonshot AI

查看发布机构详情

Kimi K2.5

模型解读

Kimi K2.5 是 Moonshot AI 于 2026 年 1 月推出的新一代开源多模态大语言模型。作为 Kimi K2 系列的迭代版本，K2.5 延续了前代模型的混合专家架构（Mixture-of-Experts, MoE），并在视觉理解、工具使用能力和智能体（Agentic）功能方面进行了升级。该模型基于约 15 万亿个混合视觉与文本 token 在 Kimi-K2-Base 基础上进行持续预训练，实现了原生多模态能力与高级智能体功能的整合。

Moonshot AI 采用了"静默发布"策略，用户通过网页端访问时发现原有 K2 模型已自动切换为 K2.5 版本，这种部署方式旨在收集真实用户反馈并持续优化模型表现。

二、核心技术架构

2.1 基础架构参数

Kimi K2.5 保持了与 K2 系列一致的 MoE 架构设计，具体技术规格如下：

技术参数	数值
总参数量	1 万亿（1T）
激活参数量	320 亿（32B）
架构类型	混合专家模型（MoE）
层数（含稠密层）	61 层
稠密层数量	1 层
注意力隐藏层维度	7168
专家隐藏层维度（每专家）	2048
注意力头数量	64
专家总数	384
每 token 选定专家数	8
共享专家数量	1
词表大小	160K
上下文长度	256K tokens
注意力机制	MLA（Multi-head Latent Attention）
激活函数	SwiGLU
视觉编码器	MoonViT（4 亿参数）

2.2 架构特点

稀疏激活机制：通过 384 个专家中仅激活 8 个的方式，模型在保持 1 万亿参数规模的同时，推理时仅需计算 320 亿参数。

长上下文窗口： 256K tokens 的上下文长度是 K2 系列（128K）的两倍，使模型能够处理更长的文档、视频序列和多轮对话。

视觉编码器 MoonViT：集成 4 亿参数的视觉编码器，支持对图像和视频内容的原生理解，无需依赖外部视觉模型进行模态转换。

三、核心能力特性

3.1 原生多模态能力

Kimi K2.5 实现了视觉-语言联合建模：

视觉知识理解：基于视觉-语言 token 的预训练，模型在视觉知识问答、跨模态推理方面具备能力
视觉 grounded 工具使用：能够基于视觉输入进行智能体工具调用，例如根据界面截图执行操作
图像到代码生成：支持从 UI 设计图、视频工作流直接生成对应代码实现
视频理解：可处理视频输入并进行内容描述、分析和推理（注：视频对话功能目前仅在官方 API 中提供实验性支持）

3.2 双模式推理系统

K2.5 提供两种互补的推理模式，通过 API 参数进行切换：

思考模式（Thinking Mode）：

启用深度推理过程，输出包含 reasoning_content 和最终回答
推荐温度参数：1.0
适用于数学证明、复杂逻辑推理、代码调试等需要逐步分析的任务

即时模式（Instant Mode）：

直接生成回答，无显式推理过程
推荐温度参数：0.6
适用于日常对话、简单问答、快速响应场景

用户可通过在 API 请求中设置 extra_body={'thinking': {'type': 'disabled'}} 来切换到即时模式。

3.3 智能体集群（Agent Swarm）

K2.5 引入了从单智能体向多智能体协同的范式转变：

任务分解：能够自动将复杂任务分解为可并行执行的子任务
动态实例化：根据任务领域动态创建专门的领域特定智能体
协调执行：支持最多 100 个子智能体的自组织、协调式执行方案
工具链编排：可自主编排工具链进行视觉数据处理，实现端到端的自动化工作流

四、训练与优化技术

4.1 持续预训练

K2.5 在 Kimi-K2-Base 基础上进行了持续预训练：

训练数据规模：约 15 万亿混合视觉与文本 token
数据构成：包含视觉-语言对齐数据、代码-图像配对数据、多模态对话数据等
训练稳定性：沿用了 K2 系列的 MuonClip 优化器，实现了大规模训练中的零不稳定现象

4.2 强化学习与对齐

继承了 K2 系列的强化学习技术：

可验证与不可验证奖励结合：对于数学、编程等可验证任务使用确定性奖励，对于开放式任务采用模型自评判机制
rubric-based 评估：模型作为自身的评判者，为不可验证任务提供可扩展的评分反馈
在线策略更新：使用可验证奖励的在线 rollout 持续更新评判模型，保持评估准确性与策略同步进化

五、API 使用与部署

5.1 接口兼容性

Kimi K2.5 提供与 OpenAI/Anthropic 兼容的 API 接口，支持以下功能：

标准对话补全：支持文本、图像、视频输入
工具调用（Tool Calling）：支持 function calling 和外部工具集成
流式输出：支持 SSE 流式响应
推理过程可见：思考模式下可通过 reasoning_content 字段获取模型推理过程

5.2 推荐推理参数

根据官方文档建议：

top_p： 0.95
temperature：思考模式：1.0即时模式：0.6
最大输出长度：根据任务需求设置（支持最高 8192 tokens）

5.3 部署支持

模型支持主流推理引擎部署：

vLLM
SGLang
KTransformers
TensorRT-LLM

推荐硬件配置包括 NVIDIA Hopper（H100、H200）和 Blackwell（B100、B200、GB200）系列 GPU。

六、模型定位与开源策略

6.1 版本演进关系

Kimi K2.5 是 K2 系列的重要迭代，而非全新架构：

Kimi K2（2025年7月）：基础 MoE 模型，文本模态，128K 上下文
Kimi K2 Thinking（2025年11月）：增加深度推理能力，256K 上下文
Kimi K2.5（2026年1月）：整合视觉能力、优化智能体功能，实现多模态统一

6.2 开源许可

K2.5 延续了 Moonshot AI 的开放策略，模型权重托管于 Hugging Face。开源协议为修改版 MIT 许可证，对月活跃用户超过 1 亿或月收入超过 2000 万美元的企业要求标注"Kimi K2"品牌标识。

七、技术局限性与注意事项

根据官方文档披露，当前版本存在以下限制：

推理效率：在处理困难推理任务或工具定义不明确时，模型可能生成过量 token，导致输出截断或不完整的工具调用
工具使用权衡：在某些任务上启用工具使用可能导致性能下降
软件开发场景：单次提示（one-shot prompting）在完成完整软件项目时表现不如基于智能体框架的使用方式
视频功能：视频对话功能目前仅在官方 API 中作为实验性功能提供

八、总结

Kimi K2.5 是 Moonshot AI 在开源多模态大模型领域的最新发布。通过保持 1 万亿参数规模的 MoE 架构，同时增加原生视觉理解能力和智能体集群功能，K2.5 在效率与能力之间取得了平衡。其 256K 上下文窗口、双模式推理系统和工具使用能力，使其成为当前开源生态中具备竞争力的通用人工智能基础模型。

该模型的发布体现了 Moonshot AI 在"智能体智能"（Agentic Intelligence）领域的技术路线，展示了中国 AI 公司在模型架构创新、训练效率优化和开源生态建设方面的投入。随着多模态能力和智能体功能的完善，K2.5 为研究人员和开发者提供了一个可扩展、可部署的高性能基础模型选择。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

Kimi K2.5

发布时间: 2026-01-27更新于: 2026-03-08 21:06:20知识截止: 2024-042,403

在线体验 GitHub Hugging Face Compare

模型参数

10000.0亿

上下文长度

256K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Kimi K2.5

模型基本信息

推理过程

支持

思考模式

思考水平 · 关闭 (Off)思考水平 · 扩展 (Extended)

上下文长度

256K tokens

最大输出长度

16384 tokens

模型类型

多模态大模型

发布时间

2026-01-27

模型文件大小

595GB

MoE架构

是

总参数 / 激活参数

10000.0 亿 / 320 亿

知识截止

2024-04

Kimi K2.5

开源和体验地址

代码开源状态

Modified MIT License

预训练权重开源

Modified MIT License- 免费商用授权

GitHub 源码

https://github.com/MoonshotAI/Kimi-K2

Hugging Face

https://huggingface.co/moonshotai/Kimi-K2.5

在线体验

https://www.kimi.com/en

Kimi K2.5

官方介绍与博客

官方论文

Kimi K2.5: Visual Agentic Intelligence

DataLearnerAI博客

Kimi K2.5

API接口信息

接口速度

2/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.6	$3
图片	$0.6	--

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.1	--
图片	$0.1	--

Kimi K2.5

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

default

87.60

21 / 158

MMLU Pro

default

78.50

54 / 114

HLE

default

50.20

44 / 111

HLE

default

30.10

44 / 111

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

default

8 / 105

SWE-bench Verified

default

76.80

13 / 90

SWE-Bench Pro - Public

default

50.70

7 / 16

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

default

96.10

20 / 106

AIME 2026

default

92.50

5 / 7

IMO-AnswerBench

default

81.80

5 / 7

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

default

46.80

13 / 27

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

default

74.90

18 / 33

BrowseComp

default

60.60

18 / 33

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

default

50.80

14 / 22

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

default

8 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

default

8 / 11

查看评测深度分析与其他模型对比

Kimi K2.5

发布机构

Moonshot AI

查看发布机构详情

Kimi K2.5

模型解读

二、核心技术架构

2.1 基础架构参数

Kimi K2.5 保持了与 K2 系列一致的 MoE 架构设计，具体技术规格如下：

技术参数	数值
总参数量	1 万亿（1T）
激活参数量	320 亿（32B）
架构类型	混合专家模型（MoE）
层数（含稠密层）	61 层
稠密层数量	1 层
注意力隐藏层维度	7168
专家隐藏层维度（每专家）	2048
注意力头数量	64
专家总数	384
每 token 选定专家数	8
共享专家数量	1
词表大小	160K
上下文长度	256K tokens
注意力机制	MLA（Multi-head Latent Attention）
激活函数	SwiGLU
视觉编码器	MoonViT（4 亿参数）

2.2 架构特点

稀疏激活机制：通过 384 个专家中仅激活 8 个的方式，模型在保持 1 万亿参数规模的同时，推理时仅需计算 320 亿参数。

长上下文窗口： 256K tokens 的上下文长度是 K2 系列（128K）的两倍，使模型能够处理更长的文档、视频序列和多轮对话。

视觉编码器 MoonViT：集成 4 亿参数的视觉编码器，支持对图像和视频内容的原生理解，无需依赖外部视觉模型进行模态转换。

三、核心能力特性

3.1 原生多模态能力

Kimi K2.5 实现了视觉-语言联合建模：

视觉知识理解：基于视觉-语言 token 的预训练，模型在视觉知识问答、跨模态推理方面具备能力
视觉 grounded 工具使用：能够基于视觉输入进行智能体工具调用，例如根据界面截图执行操作
图像到代码生成：支持从 UI 设计图、视频工作流直接生成对应代码实现
视频理解：可处理视频输入并进行内容描述、分析和推理（注：视频对话功能目前仅在官方 API 中提供实验性支持）

3.2 双模式推理系统

K2.5 提供两种互补的推理模式，通过 API 参数进行切换：

思考模式（Thinking Mode）：

启用深度推理过程，输出包含 reasoning_content 和最终回答
推荐温度参数：1.0
适用于数学证明、复杂逻辑推理、代码调试等需要逐步分析的任务

即时模式（Instant Mode）：

直接生成回答，无显式推理过程
推荐温度参数：0.6
适用于日常对话、简单问答、快速响应场景

用户可通过在 API 请求中设置 extra_body={'thinking': {'type': 'disabled'}} 来切换到即时模式。

3.3 智能体集群（Agent Swarm）

K2.5 引入了从单智能体向多智能体协同的范式转变：

任务分解：能够自动将复杂任务分解为可并行执行的子任务
动态实例化：根据任务领域动态创建专门的领域特定智能体
协调执行：支持最多 100 个子智能体的自组织、协调式执行方案
工具链编排：可自主编排工具链进行视觉数据处理，实现端到端的自动化工作流

四、训练与优化技术

4.1 持续预训练

K2.5 在 Kimi-K2-Base 基础上进行了持续预训练：

训练数据规模：约 15 万亿混合视觉与文本 token
数据构成：包含视觉-语言对齐数据、代码-图像配对数据、多模态对话数据等
训练稳定性：沿用了 K2 系列的 MuonClip 优化器，实现了大规模训练中的零不稳定现象

4.2 强化学习与对齐

继承了 K2 系列的强化学习技术：

可验证与不可验证奖励结合：对于数学、编程等可验证任务使用确定性奖励，对于开放式任务采用模型自评判机制
rubric-based 评估：模型作为自身的评判者，为不可验证任务提供可扩展的评分反馈
在线策略更新：使用可验证奖励的在线 rollout 持续更新评判模型，保持评估准确性与策略同步进化

五、API 使用与部署

5.1 接口兼容性

Kimi K2.5 提供与 OpenAI/Anthropic 兼容的 API 接口，支持以下功能：

标准对话补全：支持文本、图像、视频输入
工具调用（Tool Calling）：支持 function calling 和外部工具集成
流式输出：支持 SSE 流式响应
推理过程可见：思考模式下可通过 reasoning_content 字段获取模型推理过程

5.2 推荐推理参数

根据官方文档建议：

top_p： 0.95
temperature：思考模式：1.0即时模式：0.6
最大输出长度：根据任务需求设置（支持最高 8192 tokens）

5.3 部署支持

模型支持主流推理引擎部署：

vLLM
SGLang
KTransformers
TensorRT-LLM

推荐硬件配置包括 NVIDIA Hopper（H100、H200）和 Blackwell（B100、B200、GB200）系列 GPU。

六、模型定位与开源策略

6.1 版本演进关系

Kimi K2.5 是 K2 系列的重要迭代，而非全新架构：

Kimi K2（2025年7月）：基础 MoE 模型，文本模态，128K 上下文
Kimi K2 Thinking（2025年11月）：增加深度推理能力，256K 上下文
Kimi K2.5（2026年1月）：整合视觉能力、优化智能体功能，实现多模态统一

6.2 开源许可

七、技术局限性与注意事项

根据官方文档披露，当前版本存在以下限制：

推理效率：在处理困难推理任务或工具定义不明确时，模型可能生成过量 token，导致输出截断或不完整的工具调用
工具使用权衡：在某些任务上启用工具使用可能导致性能下降
软件开发场景：单次提示（one-shot prompting）在完成完整软件项目时表现不如基于智能体框架的使用方式
视频功能：视频对话功能目前仅在官方 API 中作为实验性功能提供

八、总结

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送