MiniMax M2.5vsGLM-5

MiniMax M2.5 与 GLM-5 在 13 个共同 benchmark 中整体接近:MiniMax M2.5 领先 6 项,GLM-5 领先 6 项,持平 1 项,平均分差 -1.79。

MiniMaxAI
MiniMax M2.5

MiniMaxAI · 2026-02-12 · 推理大模型

智谱AI
GLM-5

智谱AI · 2026-02-11 · 聊天大模型

MiniMax M2.56 (46%)持平1(46%)6 GLM-5

评测分数

按能力类目分组,每组内按分差大小排列;共 13 项。

General Knowledge

GLM-5 领先 2/4
评测项MiniMax M2.5GLM-5分差
HLE19.40106 / 157Thinking (No Tools)50.4018 / 157-31
ARC-AGI63.7032 / 65Thinking (No Tools)44.7044 / 65Thinking (No Tools)+19
GPQA Diamond85.2048 / 178Thinking (No Tools)8643 / 178Thinking (No Tools)-0.80
ARC-AGI-24.9044 / 59Thinking (No Tools)4.9044 / 59Thinking (No Tools)持平

Claw-style Agent Evaluation

MiniMax M2.5 领先 2/2
评测项MiniMax M2.5GLM-5分差
Pinch Bench87.806 / 37Thinking (With Tools)86.4012 / 37Thinking (With Tools)+1.40
Claw Bench92.104 / 29Thinking (With Tools)91.705 / 29Thinking (With Tools)+0.40

Agent Level Benchmark

GLM-5 领先 1/1
评测项MiniMax M2.5GLM-5分差
τ²-Bench - Telecom97.8010 / 35985 / 35-0.20

AI Agent - Information Search

MiniMax M2.5 领先 1/1
评测项MiniMax M2.5GLM-5分差
BrowseComp76.3018 / 4575.9019 / 45+0.40

AI Agent - Tool Usage

GLM-5 领先 1/1
评测项MiniMax M2.5GLM-5分差
Terminal Bench 2.051.7030 / 4661.1018 / 46-9.40

Coding and Software Engineer

MiniMax M2.5 领先 1/1
评测项MiniMax M2.5GLM-5分差
SWE-bench Verified80.2013 / 10877.8023 / 108Thinking (No Tools)+2.40

Instruction Following

GLM-5 领先 1/1
评测项MiniMax M2.5GLM-5分差
IF Bench7012 / 297210 / 29-2

Long Context

MiniMax M2.5 领先 1/1
评测项MiniMax M2.5GLM-5分差
AA-LCR69.503 / 13Thinking (No Tools)6312 / 13Thinking (No Tools)+6.50

Productivity Knowledge

GLM-5 领先 1/1
评测项MiniMax M2.5GLM-5分差
GDPval-AA3617 / 21Thinking (No Tools)4614 / 21Thinking (No Tools)-10

规格对比

字段MiniMax M2.5GLM-5
发布机构MiniMaxAI智谱AI
发布时间2026-02-122026-02-11
模型类型推理大模型聊天大模型
架构MoE 架构MoE 架构
参数规模2290亿7440亿
上下文长度128K200K
最大输出暂无数据128K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项MiniMax M2.5GLM-5
文本输入$0.3 / 1M tokens$1 / 1M tokens
文本输出$2.4 / 1M tokens$3.2 / 1M tokens
缓存写入暂无公开价格$0.2 / 1M tokens

小结

  • MiniMax M2.5在以下类目领先:Claw-style Agent Evaluation (2/2)、AI Agent - Information Search (1/1)、Coding and Software Engineer (1/1)、Long Context (1/1)
  • GLM-5在以下类目领先:General Knowledge (2/4)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)、Instruction Following (1/1)、Productivity Knowledge (1/1)

13 个共同 benchmark 上,GLM-5 平均高出 1.79 分。

单项差距最大的 benchmark:HLE — MiniMax M2.5 19.40,GLM-5 50.40(分差 -31)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。