Qwen 3.6 Plus PreviewvsKimi K2.5
在 11 个共同 benchmark 中,Qwen 3.6 Plus Preview 整体领先:Qwen 3.6 Plus Preview 领先 11 项,Kimi K2.5 领先 0 项,持平 0 项,平均分差 +3.90。
Qwen 3.6 Plus Preview
阿里巴巴 · 2026-03-31 · 聊天大模型
Kimi K2.5
Moonshot AI · 2026-01-27 · 多模态大模型
Qwen 3.6 Plus Preview11 项(100%)(0%)0 项Kimi K2.5
评测分数
按能力类目分组,每组内按分差大小排列;共 11 项。
Coding and Software Engineer
Qwen 3.6 Plus Preview 领先 4/4| 评测项 | Qwen 3.6 Plus Preview | Kimi K2.5 | 分差 |
|---|---|---|---|
| SWE-Bench Pro - Public | 56.6013 / 43Thinking (With Tools) | 50.7031 / 43Thinking (With Tools) | +5.90 |
| LiveCodeBench | 87.1010 / 120Thinking (No Tools) | 8516 / 120Thinking (No Tools) | +2.10 |
| SWE-bench Verified | 78.8020 / 108Thinking (With Tools) | 76.8027 / 108Thinking (With Tools) | +2 |
| SWE-bench Multilingual | 73.807 / 20Thinking (No Tools) | 7311 / 20Thinking (No Tools) | +0.80 |
General Knowledge
Qwen 3.6 Plus Preview 领先 3/3| 评测项 | Qwen 3.6 Plus Preview | Kimi K2.5 | 分差 |
|---|---|---|---|
| MMLU Pro | 88.505 / 126Thinking (No Tools) | 78.5066 / 126Thinking (No Tools) | +10 |
| GPQA Diamond | 90.4017 / 178Thinking (No Tools) | 87.6034 / 178Thinking (No Tools) | +2.80 |
| HLE | 50.6017 / 157Thinking (With Tools) | 50.2020 / 157Thinking (With Tools) | +0.40 |
Math and Reasoning
Qwen 3.6 Plus Preview 领先 2/2| 评测项 | Qwen 3.6 Plus Preview | Kimi K2.5 | 分差 |
|---|---|---|---|
| AIME 2026 | 95.302 / 14Thinking (No Tools) | 92.5010 / 14Thinking (No Tools) | +2.80 |
| IMO-AnswerBench | 83.8010 / 19Thinking (No Tools) | 81.8014 / 19Thinking (No Tools) | +2 |
AI Agent - Tool Usage
Qwen 3.6 Plus Preview 领先 1/1| 评测项 | Qwen 3.6 Plus Preview | Kimi K2.5 | 分差 |
|---|---|---|---|
| Terminal Bench 2.0 | 61.6016 / 46Thinking (With Tools) | 50.8033 / 46Thinking (With Tools) | +10.80 |
Long Context
Qwen 3.6 Plus Preview 领先 1/1| 评测项 | Qwen 3.6 Plus Preview | Kimi K2.5 | 分差 |
|---|---|---|---|
| AA-LCR | 68.306 / 13Thinking (No Tools) | 6510 / 13Thinking (No Tools) | +3.30 |
规格对比
| 字段 | Qwen 3.6 Plus Preview | Kimi K2.5 |
|---|---|---|
| 发布机构 | 阿里巴巴 | Moonshot AI |
| 发布时间 | 2026-03-31 | 2026-01-27 |
| 模型类型 | 聊天大模型 | 多模态大模型 |
| 架构 | 稠密模型 | MoE 架构 |
| 参数规模 | 暂无数据 | 1万亿 |
| 上下文长度 | 1M | 256K |
| 最大输出 | 64K | 16K |
API 调用价格
价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。
| 价格项 | Qwen 3.6 Plus Preview | Kimi K2.5 |
|---|---|---|
| 文本输入 | $0.5 / 1M tokens | 暂无公开价格 |
| 文本输出 | $3 / 1M tokens | 暂无公开价格 |
| 缓存读取 | $0.05 / 1M tokens | 暂无公开价格 |
| 缓存写入 | $0.625 / 1M tokens | 暂无公开价格 |
部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。
小结
- Qwen 3.6 Plus Preview在以下类目领先:Coding and Software Engineer (4/4)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Tool Usage (1/1)、Long Context (1/1)
11 个共同 benchmark 上,Qwen 3.6 Plus Preview 平均高出 3.90 分。
单项差距最大的 benchmark:Terminal Bench 2.0 — Qwen 3.6 Plus Preview 61.60,Kimi K2.5 50.80(分差 +10.80)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。