Qwen 3.6 Plus PreviewvsKimi K2.5

在 11 个共同 benchmark 中,Qwen 3.6 Plus Preview 整体领先:Qwen 3.6 Plus Preview 领先 11 项,Kimi K2.5 领先 0 项,持平 0 项,平均分差 +3.90。

阿里巴巴
Qwen 3.6 Plus Preview

阿里巴巴 · 2026-03-31 · 聊天大模型

Moonshot AI
Kimi K2.5

Moonshot AI · 2026-01-27 · 多模态大模型

Qwen 3.6 Plus Preview11 (100%)(0%)0 Kimi K2.5

评测分数

按能力类目分组,每组内按分差大小排列;共 11 项。

Coding and Software Engineer

Qwen 3.6 Plus Preview 领先 4/4
评测项Qwen 3.6 Plus PreviewKimi K2.5分差
SWE-Bench Pro - Public56.6013 / 43Thinking (With Tools)50.7031 / 43Thinking (With Tools)+5.90
LiveCodeBench87.1010 / 120Thinking (No Tools)8516 / 120Thinking (No Tools)+2.10
SWE-bench Verified78.8020 / 108Thinking (With Tools)76.8027 / 108Thinking (With Tools)+2
SWE-bench Multilingual73.807 / 20Thinking (No Tools)7311 / 20Thinking (No Tools)+0.80

General Knowledge

Qwen 3.6 Plus Preview 领先 3/3
评测项Qwen 3.6 Plus PreviewKimi K2.5分差
MMLU Pro88.505 / 126Thinking (No Tools)78.5066 / 126Thinking (No Tools)+10
GPQA Diamond90.4017 / 178Thinking (No Tools)87.6034 / 178Thinking (No Tools)+2.80
HLE50.6017 / 157Thinking (With Tools)50.2020 / 157Thinking (With Tools)+0.40

Math and Reasoning

Qwen 3.6 Plus Preview 领先 2/2
评测项Qwen 3.6 Plus PreviewKimi K2.5分差
AIME 202695.302 / 14Thinking (No Tools)92.5010 / 14Thinking (No Tools)+2.80
IMO-AnswerBench83.8010 / 19Thinking (No Tools)81.8014 / 19Thinking (No Tools)+2

AI Agent - Tool Usage

Qwen 3.6 Plus Preview 领先 1/1
评测项Qwen 3.6 Plus PreviewKimi K2.5分差
Terminal Bench 2.061.6016 / 46Thinking (With Tools)50.8033 / 46Thinking (With Tools)+10.80

Long Context

Qwen 3.6 Plus Preview 领先 1/1
评测项Qwen 3.6 Plus PreviewKimi K2.5分差
AA-LCR68.306 / 13Thinking (No Tools)6510 / 13Thinking (No Tools)+3.30

规格对比

字段Qwen 3.6 Plus PreviewKimi K2.5
发布机构阿里巴巴Moonshot AI
发布时间2026-03-312026-01-27
模型类型聊天大模型多模态大模型
架构稠密模型MoE 架构
参数规模暂无数据1万亿
上下文长度1M256K
最大输出64K16K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Qwen 3.6 Plus PreviewKimi K2.5
文本输入$0.5 / 1M tokens暂无公开价格
文本输出$3 / 1M tokens暂无公开价格
缓存读取$0.05 / 1M tokens暂无公开价格
缓存写入$0.625 / 1M tokens暂无公开价格

部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。

小结

  • Qwen 3.6 Plus Preview在以下类目领先:Coding and Software Engineer (4/4)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Tool Usage (1/1)、Long Context (1/1)

11 个共同 benchmark 上,Qwen 3.6 Plus Preview 平均高出 3.90 分。

单项差距最大的 benchmark:Terminal Bench 2.0 — Qwen 3.6 Plus Preview 61.60,Kimi K2.5 50.80(分差 +10.80)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。