Kimi K2.6vsKimi K2.5

Across 12 shared benchmarks, Kimi K2.6 leads overall: Kimi K2.6 wins 11, Kimi K2.5 wins 1, with 0 ties and an average score difference of +6.27.

Moonshot AI · 2026-04-20 · Reasoning model

Moonshot AI · 2026-01-27 · Multimodal model

Kimi K2.611 wins(92%)(8%)1 winKimi K2.5

Benchmark scores

Grouped by capability, sorted by largest gap within each. 12 shared benchmarks.

Kimi K2.6 4/4

Benchmark	Kimi K2.6	Kimi K2.5	Diff
SWE-Bench Pro - Public	58.6013 / 54Thinking (With Tools)	50.7041 / 54Thinking (With Tools)	+7.90
LiveCodeBench	89.607 / 123Thinking (No Tools)	8516 / 123Thinking (No Tools)	+4.60
SWE-bench Multilingual	76.705 / 23Thinking (With Tools)	7313 / 23Thinking (No Tools)	+3.70
SWE-bench Verified	80.2014 / 112Thinking (With Tools)	76.8030 / 112Thinking (With Tools)	+3.40

Kimi K2.6 3/3

Benchmark	Kimi K2.6	Kimi K2.5	Diff
HLE	5415 / 172Thinking (With Tools + Internet)	50.2027 / 172Thinking (With Tools)	+3.80
LiveBench	72.1728 / 115Thinking (No Tools)	69.0742 / 115Thinking (No Tools)	+3.10
GPQA Diamond	90.5018 / 187Thinking (No Tools)	87.6037 / 187Thinking (No Tools)	+2.90

Kimi K2.6 2/2

Benchmark	Kimi K2.6	Kimi K2.5	Diff
IMO-AnswerBench	868 / 21Thinking (No Tools)	81.8016 / 21Thinking (No Tools)	+4.20
AIME 2026	96.403 / 18Thinking (No Tools)	92.5012 / 18Thinking (No Tools)	+3.90

Kimi K2.6 1/1

Benchmark	Kimi K2.6	Kimi K2.5	Diff
BrowseComp	83.2014 / 53Thinking (With Tools + Internet)	60.6036 / 53Thinking (With Tools + Internet)	+22.60

Kimi K2.6 1/1

Benchmark	Kimi K2.6	Kimi K2.5	Diff
Terminal Bench 2.0	66.7010 / 47Thinking (With Tools)	50.8034 / 47Thinking (With Tools)	+15.90

Kimi K2.5 1/1

Benchmark	Kimi K2.6	Kimi K2.5	Diff
Claw Bench	80.9019 / 29Thinking (With Tools)	81.7018 / 29Thinking (With Tools)	-0.80

Prices use DataLearner records when available; missing fields are not inferred.

Kimi K2.6leads in:Coding and Software Engineer (4/4), General Knowledge (3/3), Math and Reasoning (2/2), AI Agent - Information Search (1/1), AI Agent - Tool Usage (1/1)
Kimi K2.5leads in:Claw-style Agent Evaluation (1/1)

On average across the 12 shared benchmarks, Kimi K2.6 scores 6.27 higher.

Largest single-benchmark gap: BrowseComp — Kimi K2.6 83.20 vs Kimi K2.5 60.60 (+22.60).

Page generated from structured model, pricing and benchmark records. No real-time LLM is used to write the prose.