加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

暂无图表数据

排名	模型	SWE-bench Verified	LiveCodeBench	参数(亿)	开源情况
1	GPT-5.1-Codex-Max	76.80	0.00	—	不开源
2	GPT-5 Codex	74.50	0.00	—	不开源
3	Grok 4 Code	72.00	0.00	—	不开源
4	Grok Code Fast 1	70.80	0.00	—	不开源
5	Qwen3-Coder-Next	70.60	0.00	80B	免费商用
6	GPT-5.1 Codex	70.40	85.50	—	不开源
7	Qwen3-Coder-480B-A35B	67.00	0.00	4800B	免费商用
8	Devstral Medium	61.60	0.00	—	不开源
9	Devstral Small 1.1	53.60	0.00	240B	免费商用
10	Qwen3-Coder-Flash	51.60	0.00	305B	免费商用
11	Devstral Small 1.0	46.80	0.00	240B	免费商用
12	Codestral 25.01	0.00	37.90	—	不开源
13	Codestral	0.00	31.50	220B	不可商用

GPT-5.1-Codex-Max

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified76.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

GPT-5 Codex

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified74.50

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok 4 Code

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified72.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok Code Fast 1

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Qwen3-Coder-Next

80B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-5.1 Codex

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.40

MATH-5000.00

AIME 20240.00

LiveCodeBench85.50

不开源

Qwen3-Coder-480B-A35B

4800B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified67.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Devstral Medium

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified61.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Devstral Small 1.1

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified53.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3-Coder-Flash

305B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified51.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Devstral Small 1.0

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified46.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Codestral 25.01

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench37.90

不开源

Codestral

220B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench31.50

不可商用

加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

暂无图表数据

排名	模型	SWE-bench Verified	LiveCodeBench	参数(亿)	开源情况
1	GPT-5.1-Codex-Max	76.80	0.00	—	不开源
2	GPT-5 Codex	74.50	0.00	—	不开源
3	Grok 4 Code	72.00	0.00	—	不开源
4	Grok Code Fast 1	70.80	0.00	—	不开源
5	Qwen3-Coder-Next	70.60	0.00	80B	免费商用
6	GPT-5.1 Codex	70.40	85.50	—	不开源
7	Qwen3-Coder-480B-A35B	67.00	0.00	4800B	免费商用
8	Devstral Medium	61.60	0.00	—	不开源
9	Devstral Small 1.1	53.60	0.00	240B	免费商用
10	Qwen3-Coder-Flash	51.60	0.00	305B	免费商用
11	Devstral Small 1.0	46.80	0.00	240B	免费商用
12	Codestral 25.01	0.00	37.90	—	不开源
13	Codestral	0.00	31.50	220B	不可商用

GPT-5.1-Codex-Max

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified76.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

GPT-5 Codex

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified74.50

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok 4 Code

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified72.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok Code Fast 1

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Qwen3-Coder-Next

80B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-5.1 Codex

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.40

MATH-5000.00

AIME 20240.00

LiveCodeBench85.50

不开源

Qwen3-Coder-480B-A35B

4800B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified67.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Devstral Medium

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified61.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Devstral Small 1.1

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified53.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3-Coder-Flash

305B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified51.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Devstral Small 1.0

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified46.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Codestral 25.01

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench37.90

不开源

Codestral

220B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench31.50

不可商用