大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 OpenAI Logo 91.04 77.30 48.90 96.40 79.20 71.00 未知 不开源
2 OpenAI Logo 86.10 71.40 38.00 90.70 36.70 46.40 未知 不开源
3 Anthropic Logo 85.00 79.60 72.50 98.20 76.00 56.60 未知 不开源
4 DeepSeek-AI Logo 85.00 81.00 57.60 98.00 91.40 73.30 6,710 免费商用授权
5 智谱AI Logo 84.60 79.10 64.20 98.20 91.00 72.90 3,550 免费商用授权
6 阿里巴巴 Logo 84.40 81.10 未公布 未公布 未公布 74.10 2,350 免费商用授权
7 DeepSeek-AI Logo 84.00 71.50 49.20 97.30 79.80 65.90 6,710 免费商用授权
8 上海人工智能实验室 Logo 83.50 77.30 未公布 未公布 未公布 未公布 2,410 免费商用授权
9 阿里巴巴 Logo 83.00 77.50 未公布 未公布 未公布 51.80 2,350 免费商用授权
10 Facebook AI研究实验室 Logo 82.20 73.70 未公布 95.00 未公布 49.40 20,000 免费商用授权
11 智谱AI Logo 81.40 75.00 57.60 98.10 89.40 70.70 1,060 免费商用授权
12 DeepSeek-AI Logo 81.20 68.40 38.80 94.00 59.40 49.20 6,810 免费商用授权
13 Moonshot AI Logo 81.10 75.10 51.80 97.40 69.60 53.70 10,000 免费商用授权
14 MiniMaxAI Logo 81.10 70.00 56.00 96.80 86.00 65.00 4,560 免费商用授权
15 OpenAI Logo 80.60 81.40 68.10 未公布 98.70 未公布 未知 不开源
16 MiniMaxAI Logo 80.60 69.20 55.60 96.00 83.30 62.30 4,560 免费商用授权
17 Facebook AI研究实验室 Logo 80.50 69.80 未公布 未公布 未公布 43.40 4,000 免费商用授权
18 OpenAI Logo 80.50 66.30 54.60 92.80 48.10 40.50 未知 不开源
19 OpenAI Logo 80.30 60.00 未公布 90.00 63.60 52.00 未知 不开源
20 DeepMind Logo 79.10 64.70 未公布 未公布 36.00 未公布 未知 不开源
21 腾讯AI实验室 Logo 79.00 57.50 未公布 未公布 未公布 32.00 未知 不开源
22 百度 Logo 78.40 未公布 未公布 96.40 54.80 38.80 3,000 免费商用授权
23 OpenAI Logo 77.90 未公布 未公布 未公布 未公布 未公布 未知 不开源
24 Anthropic Logo 77.64 59.40 未公布 未公布 未公布 未公布 未知 不开源
25 DeepMind Logo 76.24 65.20 21.40 未公布 未公布 29.10 未知 不开源
26 阿里巴巴 Logo 76.10 未公布 未公布 未公布 未公布 未公布 未知 不开源
27 DeepSeek-AI Logo 75.90 59.10 未公布 87.80 39.00 34.60 6,810 免费商用授权
28 xAI Logo 75.50 56.00 未公布 未公布 未公布 未公布 未知 不开源
29 Facebook AI研究实验室 Logo 74.30 57.20 未公布 未公布 未公布 32.80 1,090 免费商用授权
30 Facebook AI研究实验室 Logo 73.40 49.00 未公布 未公布 未公布 30.20 4,050 免费商用授权
31 阿里巴巴 Logo 72.90 71.10 34.40 98.00 85.70 70.70 2,350 免费商用授权
32 DeepMind Logo 71.60 51.50 未公布 未公布 未公布 28.90 未知 不开源
33 Facebook AI研究实验室 Logo 62.90 未公布 未公布 未公布 未公布 未公布 4,000 免费商用授权
34 Facebook AI研究实验室 Logo 61.60 未公布 未公布 未公布 未公布 未公布 4,050 免费商用授权
35 Facebook AI研究实验室 Logo 58.20 未公布 未公布 未公布 未公布 未公布 1,090 免费商用授权
36 MistralAI Logo 56.33 未公布 未公布 未公布 未公布 未公布 1,410 免费商用授权
37 xAI Logo 51.00 35.90 未公布 未公布 未公布 未公布 未知 不开源
38 OpenAI Logo 未公布 84.00 75.00 未公布 93.00 未公布 未知 不开源
39 StepFunAI Logo 未公布 73.00 未公布 未公布 未公布 67.10 3,210 免费商用授权
40 亚马逊 Logo 未公布 未公布 未公布 未公布 未公布 未公布 未知 不开源
41 MistralAI Logo 未公布 未公布 未公布 未公布 未公布 37.90 未知 不开源
42 OpenAI Logo 未公布 未公布 未公布 未公布 未公布 67.40 未知 不开源
43 阿里巴巴 Logo 未公布 未公布 67.00 未公布 未公布 未公布 4,800 免费商用授权
44 OpenAI Logo 未公布 79.70 49.30 97.90 87.00 69.50 未知 不开源
45 Moonshot AI Logo 未公布 未公布 未公布 94.60 未公布 未公布 未知 不开源
46 普林斯顿大学 Logo 未公布 未公布 未公布 96.20 未公布 未公布 未知 不开源
47 百度 Logo 未公布 76.80 未公布 未公布 未公布 38.80 4,240 免费商用授权
48 Google Deep Mind Logo 未公布 66.70 27.60 未公布 未公布 34.30 未知 不开源
49 Google Deep Mind Logo 未公布 未公布 未公布 未公布 未公布 80.40 未知 不开源
50 xAI Logo 未公布 80.40 未公布 未公布 84.20 70.60 未知 不开源
51 xAI Logo 未公布 65.00 未公布 未公布 40.00 未公布 未知 不开源
52 阿里巴巴 Logo 未公布 未公布 未公布 未公布 未公布 65.60 未知 免费商用授权
53 MistralAI Logo 未公布 70.83 未公布 未公布 73.59 59.36 未知 不开源
54 xAI Logo 未公布 84.00 未公布 未公布 96.00 未公布 未知 不开源
55 xAI Logo 未公布 84.60 未公布 未公布 93.30 79.40 未知 不开源
56 Anthropic Logo 未公布 75.40 72.70 未公布 43.40 48.50 未知 不开源
57 Google Deep Mind Logo 未公布 83.00 63.20 98.80 92.00 77.10 未知 不开源
58 xAI Logo 未公布 未公布 未公布 未公布 未公布 未公布 未知 不开源
59 Anthropic Logo 未公布 68.00 70.30 82.20 23.30 未公布 未知 不开源
60 Anthropic Logo 未公布 84.80 未公布 96.20 80.00 未公布 未知 不开源
61 Google Deep Mind Logo 未公布 78.30 63.80 未公布 88.00 63.40 未知 不开源
62 OpenAI Logo 未公布 50.30 未公布 未公布 29.40 未公布 未知 不开源
63 OpenAI Logo 未公布 65.00 23.60 未公布 49.60 未公布 未知 不开源
64 Moonshot AI Logo 未公布 未公布 未公布 未公布 未公布 73.80 未知 不开源
65 Moonshot AI Logo 未公布 未公布 未公布 未公布 未公布 65.90 未知 不开源
MMLU Pro (知识问答) 91.04
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 48.90
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 71.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 86.10
GPQA Diamond (常识推理) 71.40
SWE-bench Verified (代码生成) 38.00
MATH-500 (数学推理) 90.70
AIME 2024 (数学推理) 36.70
LiveCodeBench (代码生成) 46.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 79.60
SWE-bench Verified (代码生成) 72.50
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 76.00
LiveCodeBench (代码生成) 56.60
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 81.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 91.40
LiveCodeBench (代码生成) 73.30
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.60
GPQA Diamond (常识推理) 79.10
SWE-bench Verified (代码生成) 64.20
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 91.00
LiveCodeBench (代码生成) 72.90
参数(亿) 3,550
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.00
GPQA Diamond (常识推理) 71.50
SWE-bench Verified (代码生成) 49.20
MATH-500 (数学推理) 97.30
AIME 2024 (数学推理) 79.80
LiveCodeBench (代码生成) 65.90
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 83.50
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 2,410
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 83.00
GPQA Diamond (常识推理) 77.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.80
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 82.20
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 95.00
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 49.40
参数(亿) 20,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.40
GPQA Diamond (常识推理) 75.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 89.40
LiveCodeBench (代码生成) 70.70
参数(亿) 1,060
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.20
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 38.80
MATH-500 (数学推理) 94.00
AIME 2024 (数学推理) 59.40
LiveCodeBench (代码生成) 49.20
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 75.10
SWE-bench Verified (代码生成) 51.80
MATH-500 (数学推理) 97.40
AIME 2024 (数学推理) 69.60
LiveCodeBench (代码生成) 53.70
参数(亿) 10,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 70.00
SWE-bench Verified (代码生成) 56.00
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 86.00
LiveCodeBench (代码生成) 65.00
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 81.40
SWE-bench Verified (代码生成) 68.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 98.70
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 69.20
SWE-bench Verified (代码生成) 55.60
MATH-500 (数学推理) 96.00
AIME 2024 (数学推理) 83.30
LiveCodeBench (代码生成) 62.30
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 69.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.40
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 66.30
SWE-bench Verified (代码生成) 54.60
MATH-500 (数学推理) 92.80
AIME 2024 (数学推理) 48.10
LiveCodeBench (代码生成) 40.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 80.30
GPQA Diamond (常识推理) 60.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.00
AIME 2024 (数学推理) 63.60
LiveCodeBench (代码生成) 52.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.10
GPQA Diamond (常识推理) 64.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 36.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 57.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 54.80
LiveCodeBench (代码生成) 38.80
参数(亿) 3,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 77.64
GPQA Diamond (常识推理) 59.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.24
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 21.40
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 75.90
GPQA Diamond (常识推理) 59.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 87.80
AIME 2024 (数学推理) 39.00
LiveCodeBench (代码生成) 34.60
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 75.50
GPQA Diamond (常识推理) 56.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 74.30
GPQA Diamond (常识推理) 57.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.80
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 73.40
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 30.20
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 72.90
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 34.40
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 71.60
GPQA Diamond (常识推理) 51.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 28.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 62.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 61.60
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 58.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 56.33
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,410
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 51.00
GPQA Diamond (常识推理) 35.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 75.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 73.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.10
参数(亿) 3,210
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 37.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 67.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,800
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 79.70
SWE-bench Verified (代码生成) 49.30
MATH-500 (数学推理) 97.90
AIME 2024 (数学推理) 87.00
LiveCodeBench (代码生成) 69.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.60
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 76.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 38.80
参数(亿) 4,240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 66.70
SWE-bench Verified (代码生成) 27.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 34.30
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 80.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 80.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 84.20
LiveCodeBench (代码生成) 70.60
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 40.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.60
参数(亿) 未知
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 70.83
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 73.59
LiveCodeBench (代码生成) 59.36
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.30
LiveCodeBench (代码生成) 79.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 75.40
SWE-bench Verified (代码生成) 72.70
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 43.40
LiveCodeBench (代码生成) 48.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 83.00
SWE-bench Verified (代码生成) 63.20
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.00
SWE-bench Verified (代码生成) 70.30
MATH-500 (数学推理) 82.20
AIME 2024 (数学推理) 23.30
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 80.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 78.30
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 88.00
LiveCodeBench (代码生成) 63.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 50.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 29.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 23.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 49.60
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 73.80
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.90
参数(亿) 未知
开源情况 不开源
查看模型详情