Kimi K2 Thinking
Kimi K2 Thinking 是由 Moonshot AI 发布的 AI 模型,发布时间为 2025-11-06,定位为 推理大模型,参数规模约为 10400.0B,上下文长度为 256K,模型文件大小约 1.09 TB,采用 Modified MIT License 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.6 | $2.5 |
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | $0.15 | -- |
Kimi K2 Thinking 当前已收录的代表性评测结果包括 AIME2025(1 / 107,得分 100)、HLE(9 / 128,得分 51)、Terminal-Bench(4 / 35,得分 47.10)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
Moonshot AI 于 2025 年 11 月 6 日发布了 Kimi K2 Thinking 模型。这是 Kimi K2 系列的第一个推理变体。该公司位于北京,由阿里巴巴支持。Kimi K2 系列此前在 2025 年 7 月和 9 月发布了非推理版本的 Kimi K2 Instruct 模型。
Kimi K2 Thinking 采用混合专家(MoE)架构,总参数量为 1 万亿,活跃参数为 320 亿。它使用 INT4 精度,这比先前版本的 FP8 精度更节省空间,模型文件大小约为 594 GB。上下文窗口支持 256K 令牌。输入和输出仅限于文本模态。
Moonshot AI 在后训练阶段使用了量化感知训练,以实现 INT4 精度。这使得模型在较旧的 NVIDIA GPU 上运行时更高效,因为这些 GPU 不支持 FP4。
该模型设计为思考代理,支持多步推理和工具使用。它可以执行 200 到 300 个连续工具调用,而无需人类干预。主要应用包括推理、代理搜索和编码任务。在测试时,它通过扩展思考令牌和工具调用轮次来处理复杂任务。
在代理任务基准中,Kimi K2 Thinking 在 Tau2 Bench Telecom 上得分 93%,模拟客户服务代理场景。在 HLE 上得分 44.9%,在 BrowseComp 上得分 60.2%。这些分数使其在开源模型中位居前列。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
