Ki

Kimi K2 Thinking

推理大模型

Kimi K2 Thinking

发布时间: 2025-11-06

521
模型参数(Parameters)
10400.0
最高上下文长度(Context Length)
256K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

256K tokens

最长输出结果
暂无数据
模型类型

推理大模型

发布时间

2025-11-06

模型预文件大小

1.09 TB

推理模式
思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Modified MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.6 美元/100 万tokens 2.5 美元/100 万tokens
缓存计费 Cache
模态 输入 Cache 输出 Cache
文本 0.15 美元/100 万tokens --

Kimi K2 Thinking模型在各大评测榜单的评分

综合评估

共 6 项评测
MMLU Pro thinking
84.60
16 / 105
GPQA Diamond thinking
84.50
16 / 133
LiveBench thinking
67.93
24 / 48
HLE parallel_thinking + 使用工具
51
1 / 68
HLE thinking + 使用工具
44.90
2 / 68
HLE thinking
23.90
16 / 68

编程与软件工程

共 2 项评测
LiveCodeBench thinking
83.10
4 / 94
SWE-bench Verified thinking + 使用工具
71.30
18 / 66

数学推理

共 3 项评测
AIME2025 parallel_thinking + 使用工具
100
1 / 93
AIME2025 thinking + 使用工具
99.10
8 / 93
AIME2025 thinking
94.50
18 / 93

Agent能力评测

共 2 项评测
τ²-Bench - Telecom thinking + 使用工具
93
5 / 15
Terminal-Bench thinking + 使用工具
47.10
5 / 36

指令跟随

共 1 项评测
IF Bench thinking
68
5 / 11

AI Agent - 信息收集

共 1 项评测
BrowseComp thinking + 使用工具
60.20
3 / 8

发布机构

Kimi K2 Thinking模型解读

Moonshot AI 于 2025 年 11 月 6 日发布了 Kimi K2 Thinking 模型。这是 Kimi K2 系列的第一个推理变体。该公司位于北京,由阿里巴巴支持。Kimi K2 系列此前在 2025 年 7 月和 9 月发布了非推理版本的 Kimi K2 Instruct 模型。

模型规格

Kimi K2 Thinking 采用混合专家(MoE)架构,总参数量为 1 万亿,活跃参数为 320 亿。它使用 INT4 精度,这比先前版本的 FP8 精度更节省空间,模型文件大小约为 594 GB。上下文窗口支持 256K 令牌。输入和输出仅限于文本模态。

Moonshot AI 在后训练阶段使用了量化感知训练,以实现 INT4 精度。这使得模型在较旧的 NVIDIA GPU 上运行时更高效,因为这些 GPU 不支持 FP4。

功能和能力

该模型设计为思考代理,支持多步推理和工具使用。它可以执行 200 到 300 个连续工具调用,而无需人类干预。主要应用包括推理、代理搜索和编码任务。在测试时,它通过扩展思考令牌和工具调用轮次来处理复杂任务。

在代理任务基准中,Kimi K2 Thinking 在 Tau2 Bench Telecom 上得分 93%,模拟客户服务代理场景。在 HLE 上得分 44.9%,在 BrowseComp 上得分 60.2%。这些分数使其在开源模型中位居前列。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat