DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogKimi K2 Thinking
KI

Kimi K2 Thinking

Kimi K2 Thinking

Release date: 2025-11-06更新于: 2025-11-07 09:40:591,291
Live demoGitHubHugging FaceCompare
Parameters
10400.0亿
Context length
256K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Kimi K2 Thinking

Model basics

Reasoning traces
Supported
Context length
256K tokens
Max output length
No data
Model type
推理大模型
Release date
2025-11-06
Model file size
1.09 TB
MoE architecture
Yes
Total params / Active params
10400.0B / 320B
Knowledge cutoff
No data
Inference modes
思考模式(Thinking Mode)
Kimi K2 Thinking

Open source & experience

Code license
Modified MIT License
Weights license
Modified MIT License- 免费商用授权
GitHub repo
https://github.com/MoonshotAI/Kimi-K2
Hugging Face
https://huggingface.co/moonshotai/Kimi-K2-Thinking
Live demo
https://www.kimi.com/en/
Kimi K2 Thinking

Official resources

Paper
Introducing Kimi K2 Thinking
DataLearnerAI blog
Moonshot AI 发布 Kimi K2 Thinking:连续执行200-300次顺序工具调用,人类最后难题评测得分超过所有模型,全球第一!依然免费开源商用!
Kimi K2 Thinking

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$0.6$2.5
Cached pricingCache
ModalityInput cacheOutput cache
Text$0.15--
Kimi K2 Thinking

Benchmark Results

Tool usage

综合评估

6 evaluations
Benchmark / mode
Score
Rank/total
MMLU ProThinking
84.60
21 / 112
GPQA DiamondThinking
84.50
30 / 153
LiveBenchThinking
67.93
27 / 52
HLEParallel thinking + With tools
51
3 / 105
HLEThinking + With tools
44.90
13 / 105
HLEThinking
23.90
46 / 105

编程与软件工程

2 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBenchThinking
83.10
12 / 103
SWE-bench VerifiedThinking + With tools
71.30
33 / 87

数学推理

3 evaluations
Benchmark / mode
Score
Rank/total
AIME2025Parallel thinking + With tools
100
1 / 105
AIME2025Thinking + With tools
99.10
11 / 105
AIME2025Thinking
94.50
26 / 105

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal-BenchThinking + With tools
47.10
4 / 35

Agent能力评测

1 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench - TelecomThinking + With tools
93
15 / 29

指令跟随

1 evaluations
Benchmark / mode
Score
Rank/total
IF BenchThinking
68
11 / 25

AI Agent - 信息收集

1 evaluations
Benchmark / mode
Score
Rank/total
BrowseCompThinking + With tools
60.20
14 / 27
查看评测深度分析与其他模型对比
Kimi K2 Thinking

Publisher

Moonshot AI
Moonshot AI
View publisher details
Kimi K2 Thinking

Model Overview

Moonshot AI 于 2025 年 11 月 6 日发布了 Kimi K2 Thinking 模型。这是 Kimi K2 系列的第一个推理变体。该公司位于北京,由阿里巴巴支持。Kimi K2 系列此前在 2025 年 7 月和 9 月发布了非推理版本的 Kimi K2 Instruct 模型。

模型规格

Kimi K2 Thinking 采用混合专家(MoE)架构,总参数量为 1 万亿,活跃参数为 320 亿。它使用 INT4 精度,这比先前版本的 FP8 精度更节省空间,模型文件大小约为 594 GB。上下文窗口支持 256K 令牌。输入和输出仅限于文本模态。

Moonshot AI 在后训练阶段使用了量化感知训练,以实现 INT4 精度。这使得模型在较旧的 NVIDIA GPU 上运行时更高效,因为这些 GPU 不支持 FP4。

功能和能力

该模型设计为思考代理,支持多步推理和工具使用。它可以执行 200 到 300 个连续工具调用,而无需人类干预。主要应用包括推理、代理搜索和编码任务。在测试时,它通过扩展思考令牌和工具调用轮次来处理复杂任务。

在代理任务基准中,Kimi K2 Thinking 在 Tau2 Bench Telecom 上得分 93%,模拟客户服务代理场景。在 HLE 上得分 44.9%,在 BrowseComp 上得分 60.2%。这些分数使其在开源模型中位居前列。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码