大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 OpenAI Logo 91.04 77.30 48.90 96.40 79.20 71.00 未知 不开源
2 腾讯AI实验室 Logo 87.20 69.30 未公布 96.20 78.20 64.90 未知 不开源
3 xAI Logo 87.00 未公布 未公布 未公布 未公布 未公布 未知 不开源
4 OpenAI Logo 86.10 71.40 38.00 90.70 36.70 46.40 未知 不开源
5 Google Deep Mind Logo 86.00 未公布 未公布 98.80 92.00 77.10 未知 不开源
6 OpenAI Logo 85.60 未公布 未公布 98.10 91.60 75.80 未知 不开源
7 Anthropic Logo 85.00 79.60 72.50 98.20 76.00 56.60 未知 不开源
8 DeepSeek-AI Logo 85.00 未公布 未公布 98.00 91.40 73.30 6,710 免费商用授权
9 智谱AI Logo
GLM-4.5
thinking
84.60 79.10 64.20 98.20 91.00 72.90 3,550 免费商用授权
10 阿里巴巴 Logo 84.40 81.10 未公布 未公布 未公布 74.10 305 免费商用授权
11 阿里巴巴 Logo 84.40 81.10 未公布 未公布 未公布 74.10 2,350 免费商用授权
12 DeepSeek-AI Logo 84.00 71.50 49.20 97.30 79.80 65.90 6,710 免费商用授权
13 上海人工智能实验室 Logo 83.50 77.30 未公布 未公布 未公布 未公布 2,410 免费商用授权
14 阿里巴巴 Logo 83.00 77.50 未公布 未公布 未公布 51.80 2,350 免费商用授权
15 华为 Logo 82.60 73.70 未公布 96.80 79.20 59.60 719 免费商用授权
16 Facebook AI研究实验室 Logo 82.20 73.70 未公布 95.00 未公布 49.40 20,000 免费商用授权
17 智谱AI Logo
GLM-4.5-Air
thinking
81.40 75.00 57.60 98.10 89.40 70.70 1,060 免费商用授权
18 DeepSeek-AI Logo 81.20 68.40 38.80 94.00 59.40 49.20 6,810 免费商用授权
19 MiniMaxAI Logo 81.10 70.00 56.00 96.80 86.00 65.00 4,560 免费商用授权
20 Moonshot AI Logo 81.10 75.10 51.80 97.40 69.60 53.70 10,000 免费商用授权
21 MiniMaxAI Logo 80.60 69.20 55.60 96.00 83.30 62.30 4,560 免费商用授权
22 OpenAI Logo
OpenAI o4 - mini
thinking
80.60 81.40 68.10 未公布 93.40 未公布 未知 不开源
23 Facebook AI研究实验室 Logo 80.50 69.80 未公布 未公布 未公布 43.40 4,000 免费商用授权
24 OpenAI Logo 80.50 66.30 54.60 92.80 48.10 40.50 未知 不开源
25 OpenAI Logo 80.30 60.00 未公布 90.00 63.60 52.00 未知 不开源
26 OpenAI Logo 79.80 66.90 未公布 未公布 未公布 35.80 未知 不开源
27 DeepMind Logo 79.10 64.70 未公布 未公布 36.00 未公布 未知 不开源
28 华为 Logo 79.00 未公布 未公布 92.40 81.90 67.10 70 免费商用授权
29 腾讯AI实验室 Logo 79.00 57.50 未公布 未公布 未公布 32.00 未知 不开源
30 OpenAI Logo
GPT OSS 120B
thinking
79.00 80.10 60.10 未公布 未公布 未公布 117 免费商用授权
31 阿里巴巴 Logo 78.40 70.40 未公布 未公布 未公布 43.20 305 免费商用授权
32 百度 Logo 78.40 未公布 未公布 96.40 54.80 38.80 3,000 免费商用授权
33 Anthropic Logo 78.00 65.00 49.00 78.00 16.00 38.70 未知 不开源
34 OpenAI Logo 77.90 未公布 未公布 未公布 未公布 未公布 未知 不开源
35 OpenAI Logo 77.90 70.10 31.00 75.90 9.30 35.10 未知 不开源
36 Anthropic Logo 77.64 59.40 未公布 未公布 未公布 未公布 未知 不开源
37 DeepMind Logo 76.24 65.20 21.40 未公布 未公布 29.10 未知 不开源
38 阿里巴巴 Logo 76.10 未公布 未公布 未公布 未公布 未公布 未知 不开源
39 Google Deep Mind Logo 76.10 53.50 未公布 未公布 未公布 未公布 未知 不开源
40 阿里巴巴 Logo 76.00 58.00 未公布 91.00 79.50 未公布 325 免费商用授权
41 DeepSeek-AI Logo 75.90 59.10 未公布 87.80 39.00 34.60 6,810 免费商用授权
42 xAI Logo 75.50 56.00 未公布 未公布 未公布 未公布 未知 不开源
43 Facebook AI研究实验室 Logo 74.30 57.20 未公布 未公布 未公布 32.80 1,090 免费商用授权
44 OpenAI Logo
GPT OSS 20B
thinking
74.00 71.50 未公布 未公布 未公布 未公布 210 免费商用授权
45 Facebook AI研究实验室 Logo 73.40 49.00 未公布 未公布 未公布 30.20 4,050 免费商用授权
46 阿里巴巴 Logo 72.90 71.10 34.40 96.20 85.70 70.70 2,350 免费商用授权
47 阿里巴巴 Logo 72.50 39.30 未公布 87.40 79.40 61.80 80 免费商用授权
48 智谱AI Logo 72.40 未公布 未公布 未公布 76.40 51.80 90 免费商用授权
49 DeepMind Logo 71.60 51.50 未公布 未公布 未公布 28.90 未知 不开源
50 阿里巴巴 Logo 70.97 未公布 未公布 90.60 50.00 未公布 320 免费商用授权
51 Microsoft Logo 70.40 未公布 未公布 未公布 未公布 未公布 140 不可以商用
52 阿里巴巴 Logo 69.23 未公布 未公布 未公布 未公布 51.20 320 免费商用授权
53 阿里巴巴 Logo 69.10 54.80 未公布 未公布 未公布 29.00 305 免费商用授权
54 MistralAI Logo 69.06 46.13 未公布 未公布 未公布 未公布 240 免费商用授权
55 Facebook AI研究实验室 Logo 68.90 50.50 未公布 未公布 未公布 33.30 700 免费商用授权
56 Anthropic Logo 68.45 50.40 未公布 未公布 未公布 未公布 未知 不开源
57 Google Deep Mind Logo 67.50 42.40 未公布 未公布 25.30 29.70 270 免费商用授权
58 腾讯AI实验室 Logo 67.23 71.20 未公布 未公布 87.30 63.90 800 免费商用授权
59 MistralAI Logo 66.76 45.96 未公布 未公布 未公布 未公布 240 免费商用授权
60 Facebook AI研究实验室 Logo 66.40 48.00 未公布 未公布 未公布 33.30 700 免费商用授权
61 Anthropic Logo 65.00 41.60 未公布 未公布 未公布 未公布 未知 不开源
62 阿里巴巴 Logo 63.69 未公布 未公布 未公布 未公布 未公布 140 免费商用授权
63 Facebook AI研究实验室 Logo 62.90 未公布 未公布 未公布 未公布 未公布 4,000 免费商用授权
64 OpenAI Logo 61.70 41.10 未公布 未公布 未公布 未公布 未知 不开源
65 Facebook AI研究实验室 Logo 61.60 未公布 未公布 未公布 未公布 未公布 4,050 免费商用授权
66 Google Deep Mind Logo 60.60 40.90 未公布 未公布 未公布 24.60 120 免费商用授权
67 Facebook AI研究实验室 Logo 58.20 未公布 未公布 未公布 未公布 未公布 1,090 免费商用授权
68 阿里巴巴 Logo 58.10 45.90 未公布 未公布 未公布 未公布 727 免费商用授权
69 Anthropic Logo 56.80 未公布 未公布 未公布 未公布 未公布 未知 不开源
70 Google Deep Mind Logo 56.54 未公布 未公布 未公布 未公布 未公布 270 免费商用授权
71 MistralAI Logo 56.33 未公布 未公布 未公布 未公布 未公布 1,410 免费商用授权
72 Facebook AI研究实验室 Logo 56.20 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
73 Microsoft Logo 52.80 36.00 未公布 71.80 10.00 未公布 38 免费商用授权
74 Facebook AI研究实验室 Logo 52.78 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
75 Facebook AI研究实验室 Logo 52.47 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
76 xAI Logo 51.00 35.90 未公布 未公布 未公布 未公布 未知 不开源
77 CohereAI Logo 47.16 33.84 未公布 未公布 未公布 未公布 320 不可以商用
78 阿里巴巴 Logo 45.00 36.40 未公布 未公布 未公布 未公布 70 免费商用授权
79 Google Research Logo 44.70 32.80 未公布 未公布 未公布 未公布 90 免费商用授权
80 Facebook AI研究实验室 Logo 44.00 26.30 未公布 未公布 未公布 未公布 80 免费商用授权
81 Moonshot AI Logo 42.40 未公布 未公布 未公布 未公布 未公布 160 免费商用授权
82 Facebook AI研究实验室 Logo 35.40 25.80 未公布 未公布 未公布 未公布 80 免费商用授权
83 阿里巴巴 Logo 34.60 24.30 未公布 未公布 未公布 未公布 30 免费商用授权
84 MistralAI Logo 30.90 24.70 未公布 未公布 未公布 未公布 70 免费商用授权
85 Facebook AI研究实验室 Logo 25.00 26.60 未公布 未公布 未公布 未公布 32 免费商用授权
86 普林斯顿大学 Logo 未公布 未公布 未公布 96.20 未公布 未公布 未知 不开源
87 阿里巴巴 Logo
Qwen3-8B
thinking
未公布 62.00 未公布 97.40 76.00 57.50 80 免费商用授权
88 OpenAI Logo
OpenAI o4 - mini
thinking + 使用工具
未公布 未公布 未公布 未公布 98.70 未公布 未知 不开源
89 Tencent ARC Logo 未公布 60.10 未公布 93.70 81.10 57.00 70 免费商用授权
90 OpenAI Logo
GPT OSS 120B
thinking + 使用工具
未公布 未公布 未公布 未公布 96.60 未公布 117 免费商用授权
91 OpenAI Logo
GPT OSS 20B
thinking + 使用工具
未公布 未公布 未公布 未公布 96.00 未公布 210 免费商用授权
92 Anthropic Logo
Claude Opus 4.1
thinking + 使用工具
未公布 80.90 74.50 未公布 未公布 未公布 未知 不开源
93 Google Deep Mind Logo
Gemini 2.5 Deep Think
deeper_thinking
未公布 未公布 未公布 未公布 未公布 87.60 未知 不开源
94 OpenAI Logo
OpenAI o3-mini
thinking
未公布 70.60 40.80 95.80 60.00 未公布 未知 不开源
95 StepFunAI Logo 未公布 73.00 未公布 未公布 未公布 67.10 3,210 免费商用授权
96 亚马逊 Logo 未公布 未公布 未公布 未公布 未公布 未公布 未知 不开源
97 DeepSeek-AI Logo
DeepSeek-R1-0528
thinking
未公布 81.00 57.60 未公布 未公布 未公布 6,710 免费商用授权
98 OpenAI Logo
GPT-5
thinking + 使用工具
未公布 87.30 未公布 未公布 未公布 未公布 未知 不开源
99 OpenAI Logo
GPT-5
thinking
未公布 85.70 74.90 未公布 未公布 未公布 未知 不开源
100 xAI Logo
Grok 4
thinking
未公布 87.00 58.60 未公布 未公布 82.00 未知 不开源
101 OpenAI Logo
OpenAI o3
thinking
未公布 83.30 69.10 未公布 未公布 未公布 未知 不开源
102 Google Deep Mind Logo
Gemini-2.5-Pro
thinking
未公布 86.40 67.20 未公布 未公布 未公布 未知 不开源
103 OpenAI Logo
GPT-5-Pro
thinking + 使用工具
未公布 89.40 未公布 未公布 未公布 未公布 未知 不开源
104 OpenAI Logo
GPT-5-Pro
thinking
未公布 88.40 未公布 未公布 未公布 未公布 未知 不开源
105 xAI Logo 未公布 84.00 未公布 未公布 96.00 未公布 未知 不开源
106 阿里巴巴 Logo 未公布 65.80 未公布 未公布 未公布 55.20 40 免费商用授权
107 阿里巴巴 Logo 未公布 62.00 未公布 未公布 未公布 35.10 40 免费商用授权
108 阿里巴巴 Logo
Qwen3-235B-A22B
thinking
未公布 71.10 未公布 98.00 85.70 70.70 2,350 免费商用授权
109 Moonshot AI Logo 未公布 未公布 未公布 94.60 未公布 未公布 未知 不开源
110 Anthropic Logo 未公布 68.00 70.30 82.20 23.30 未公布 未知 不开源
111 阿里巴巴 Logo
Qwen3-32B
thinking
未公布 68.40 未公布 97.20 81.40 未公布 320 免费商用授权
112 DeepSeek-AI Logo 未公布 65.20 未公布 94.50 未公布 未公布 700 免费商用授权
113 xAI Logo 未公布 65.00 未公布 未公布 40.00 未公布 未知 不开源
114 xAI Logo 未公布 84.60 未公布 未公布 93.30 79.40 未知 不开源
115 xAI Logo 未公布 88.90 73.50 未公布 未公布 未公布 未知 不开源
116 MistralAI Logo 未公布 未公布 46.80 未公布 未公布 未公布 240 免费商用授权
117 MistralAI Logo 未公布 未公布 53.60 未公布 未公布 未公布 240 免费商用授权
118 MistralAI Logo 未公布 未公布 61.60 未公布 未公布 未公布 未知 不开源
119 xAI Logo 未公布 未公布 72.00 未公布 未公布 未公布 未知 不开源
120 Moonshot AI Logo 未公布 未公布 未公布 未公布 未公布 65.90 未知 不开源
121 阿里巴巴 Logo 未公布 53.30 未公布 未公布 81.40 65.70 320 免费商用授权
122 阿里巴巴 Logo 未公布 未公布 未公布 未公布 未公布 65.60 未知 免费商用授权
123 Moonshot AI Logo 未公布 未公布 未公布 未公布 未公布 73.80 未知 不开源
124 OpenAI Logo 未公布 50.30 未公布 未公布 29.40 未公布 未知 不开源
125 OpenAI Logo 未公布 65.00 23.60 未公布 49.60 未公布 未知 不开源
126 xAI Logo 未公布 80.40 未公布 未公布 84.20 70.60 未知 不开源
127 Google Deep Mind Logo 未公布 84.00 63.80 未公布 92.00 70.40 未知 不开源
128 MistralAI Logo 未公布 68.18 未公布 未公布 70.68 55.84 240 免费商用授权
129 Google Deep Mind Logo 未公布 66.70 27.60 未公布 未公布 34.30 未知 不开源
130 Google Deep Mind Logo 未公布 未公布 未公布 未公布 未公布 80.40 未知 不开源
131 Google Deep Mind Logo 未公布 83.00 63.20 98.80 92.00 77.10 未知 不开源
132 OpenAI Logo 未公布 84.00 75.00 未公布 93.00 未公布 未知 不开源
133 百度 Logo 未公布 76.80 未公布 未公布 未公布 38.80 4,240 免费商用授权
134 阿里巴巴 Logo 未公布 未公布 67.00 未公布 未公布 未公布 4,800 免费商用授权
135 阿里巴巴 Logo 未公布 未公布 51.60 未公布 未公布 未公布 305 免费商用授权
136 MistralAI Logo 未公布 70.83 未公布 未公布 73.59 59.36 未知 不开源
137 Anthropic Logo 未公布 84.80 未公布 96.20 80.00 未公布 未知 不开源
138 xAI Logo 未公布 未公布 未公布 未公布 未公布 未公布 未知 不开源
139 OpenAI Logo 未公布 79.70 49.30 97.90 87.00 69.50 未知 不开源
140 Google Deep Mind Logo 未公布 78.30 63.80 未公布 88.00 63.40 未知 不开源
141 Anthropic Logo 未公布 75.40 72.70 未公布 43.40 48.50 未知 不开源
142 Microsoft Logo 未公布 49.00 未公布 90.40 50.00 未公布 38 不开源
143 DeepSeek-AI Logo 未公布 49.50 未公布 91.40 53.30 未公布 70 免费商用授权
144 OpenAI Logo 未公布 未公布 未公布 未公布 未公布 67.40 未知 不开源
145 MistralAI Logo 未公布 未公布 未公布 未公布 未公布 31.50 220 不可以商用
146 MistralAI Logo 未公布 未公布 未公布 未公布 未公布 37.90 未知 不开源
147 OpenAI Logo 未公布 77.80 未公布 未公布 未公布 未公布 未知 不开源
148 OpenAI Logo 未公布 未公布 未公布 未公布 未公布 未公布 未知 不开源
MMLU Pro (知识问答) 91.04
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 48.90
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 71.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 87.20
GPQA Diamond (常识推理) 69.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 78.20
LiveCodeBench (代码生成) 64.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 87.00
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 86.10
GPQA Diamond (常识推理) 71.40
SWE-bench Verified (代码生成) 38.00
MATH-500 (数学推理) 90.70
AIME 2024 (数学推理) 36.70
LiveCodeBench (代码生成) 46.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 86.00
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 85.60
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 91.60
LiveCodeBench (代码生成) 75.80
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 79.60
SWE-bench Verified (代码生成) 72.50
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 76.00
LiveCodeBench (代码生成) 56.60
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 91.40
LiveCodeBench (代码生成) 73.30
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.60
GPQA Diamond (常识推理) 79.10
SWE-bench Verified (代码生成) 64.20
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 91.00
LiveCodeBench (代码生成) 72.90
参数(亿) 3,550
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 305
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 84.00
GPQA Diamond (常识推理) 71.50
SWE-bench Verified (代码生成) 49.20
MATH-500 (数学推理) 97.30
AIME 2024 (数学推理) 79.80
LiveCodeBench (代码生成) 65.90
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 83.50
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 2,410
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 83.00
GPQA Diamond (常识推理) 77.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.80
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 82.60
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 59.60
参数(亿) 719
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 82.20
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 95.00
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 49.40
参数(亿) 20,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.40
GPQA Diamond (常识推理) 75.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 89.40
LiveCodeBench (代码生成) 70.70
参数(亿) 1,060
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.20
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 38.80
MATH-500 (数学推理) 94.00
AIME 2024 (数学推理) 59.40
LiveCodeBench (代码生成) 49.20
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 70.00
SWE-bench Verified (代码生成) 56.00
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 86.00
LiveCodeBench (代码生成) 65.00
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 75.10
SWE-bench Verified (代码生成) 51.80
MATH-500 (数学推理) 97.40
AIME 2024 (数学推理) 69.60
LiveCodeBench (代码生成) 53.70
参数(亿) 10,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 69.20
SWE-bench Verified (代码生成) 55.60
MATH-500 (数学推理) 96.00
AIME 2024 (数学推理) 83.30
LiveCodeBench (代码生成) 62.30
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 81.40
SWE-bench Verified (代码生成) 68.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 69.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.40
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 66.30
SWE-bench Verified (代码生成) 54.60
MATH-500 (数学推理) 92.80
AIME 2024 (数学推理) 48.10
LiveCodeBench (代码生成) 40.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 80.30
GPQA Diamond (常识推理) 60.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.00
AIME 2024 (数学推理) 63.60
LiveCodeBench (代码生成) 52.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.80
GPQA Diamond (常识推理) 66.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 35.80
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.10
GPQA Diamond (常识推理) 64.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 36.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 92.40
AIME 2024 (数学推理) 81.90
LiveCodeBench (代码生成) 67.10
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 57.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 80.10
SWE-bench Verified (代码生成) 60.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 117
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 70.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.20
参数(亿) 305
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 54.80
LiveCodeBench (代码生成) 38.80
参数(亿) 3,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 78.00
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 49.00
MATH-500 (数学推理) 78.00
AIME 2024 (数学推理) 16.00
LiveCodeBench (代码生成) 38.70
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 70.10
SWE-bench Verified (代码生成) 31.00
MATH-500 (数学推理) 75.90
AIME 2024 (数学推理) 9.30
LiveCodeBench (代码生成) 35.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 77.64
GPQA Diamond (常识推理) 59.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.24
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 21.40
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 53.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 76.00
GPQA Diamond (常识推理) 58.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 91.00
AIME 2024 (数学推理) 79.50
LiveCodeBench (代码生成) 未公布
参数(亿) 325
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 75.90
GPQA Diamond (常识推理) 59.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 87.80
AIME 2024 (数学推理) 39.00
LiveCodeBench (代码生成) 34.60
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 75.50
GPQA Diamond (常识推理) 56.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 74.30
GPQA Diamond (常识推理) 57.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.80
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 74.00
GPQA Diamond (常识推理) 71.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 210
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 73.40
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 30.20
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 72.90
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 34.40
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 72.50
GPQA Diamond (常识推理) 39.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 87.40
AIME 2024 (数学推理) 79.40
LiveCodeBench (代码生成) 61.80
参数(亿) 80
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 72.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 76.40
LiveCodeBench (代码生成) 51.80
参数(亿) 90
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 71.60
GPQA Diamond (常识推理) 51.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 28.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 70.97
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.60
AIME 2024 (数学推理) 50.00
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 70.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 不可以商用
查看模型详情
MMLU Pro (知识问答) 69.23
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.20
参数(亿) 320
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 69.10
GPQA Diamond (常识推理) 54.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.00
参数(亿) 305
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 69.06
GPQA Diamond (常识推理) 46.13
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 68.90
GPQA Diamond (常识推理) 50.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 68.45
GPQA Diamond (常识推理) 50.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 67.50
GPQA Diamond (常识推理) 42.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 25.30
LiveCodeBench (代码生成) 29.70
参数(亿) 270
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 67.23
GPQA Diamond (常识推理) 71.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 87.30
LiveCodeBench (代码生成) 63.90
参数(亿) 800
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 66.76
GPQA Diamond (常识推理) 45.96
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 66.40
GPQA Diamond (常识推理) 48.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 65.00
GPQA Diamond (常识推理) 41.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 63.69
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 62.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 61.70
GPQA Diamond (常识推理) 41.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 61.60
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 60.60
GPQA Diamond (常识推理) 40.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 24.60
参数(亿) 120
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 58.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 58.10
GPQA Diamond (常识推理) 45.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 727
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 56.80
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 56.54
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 270
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 56.33
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,410
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 56.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 52.80
GPQA Diamond (常识推理) 36.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 71.80
AIME 2024 (数学推理) 10.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 52.78
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 52.47
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 51.00
GPQA Diamond (常识推理) 35.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 47.16
GPQA Diamond (常识推理) 33.84
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 不可以商用
查看模型详情
MMLU Pro (知识问答) 45.00
GPQA Diamond (常识推理) 36.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 44.70
GPQA Diamond (常识推理) 32.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 90
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 44.00
GPQA Diamond (常识推理) 26.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 80
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 42.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 160
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 35.40
GPQA Diamond (常识推理) 25.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 80
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 34.60
GPQA Diamond (常识推理) 24.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 30
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 30.90
GPQA Diamond (常识推理) 24.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 25.00
GPQA Diamond (常识推理) 26.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 32
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 62.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 97.40
AIME 2024 (数学推理) 76.00
LiveCodeBench (代码生成) 57.50
参数(亿) 80
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 98.70
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 60.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 93.70
AIME 2024 (数学推理) 81.10
LiveCodeBench (代码生成) 57.00
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.60
LiveCodeBench (代码生成) 未公布
参数(亿) 117
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.00
LiveCodeBench (代码生成) 未公布
参数(亿) 210
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 80.90
SWE-bench Verified (代码生成) 74.50
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 87.60
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 70.60
SWE-bench Verified (代码生成) 40.80
MATH-500 (数学推理) 95.80
AIME 2024 (数学推理) 60.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 73.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.10
参数(亿) 3,210
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 81.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 87.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 85.70
SWE-bench Verified (代码生成) 74.90
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 87.00
SWE-bench Verified (代码生成) 58.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 82.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 83.30
SWE-bench Verified (代码生成) 69.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 86.40
SWE-bench Verified (代码生成) 67.20
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 89.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 88.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 55.20
参数(亿) 40
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 62.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 35.10
参数(亿) 40
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.60
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.00
SWE-bench Verified (代码生成) 70.30
MATH-500 (数学推理) 82.20
AIME 2024 (数学推理) 23.30
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 97.20
AIME 2024 (数学推理) 81.40
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.50
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 40.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.30
LiveCodeBench (代码生成) 79.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 88.90
SWE-bench Verified (代码生成) 73.50
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 46.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 53.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 61.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 72.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 53.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 81.40
LiveCodeBench (代码生成) 65.70
参数(亿) 320
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.60
参数(亿) 未知
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 73.80
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 50.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 29.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 23.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 49.60
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 80.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 84.20
LiveCodeBench (代码生成) 70.60
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 70.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.18
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 70.68
LiveCodeBench (代码生成) 55.84
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 66.70
SWE-bench Verified (代码生成) 27.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 34.30
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 80.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 83.00
SWE-bench Verified (代码生成) 63.20
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 75.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 76.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 38.80
参数(亿) 4,240
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 67.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,800
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 51.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 305
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 70.83
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 73.59
LiveCodeBench (代码生成) 59.36
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 80.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 79.70
SWE-bench Verified (代码生成) 49.30
MATH-500 (数学推理) 97.90
AIME 2024 (数学推理) 87.00
LiveCodeBench (代码生成) 69.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 78.30
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 88.00
LiveCodeBench (代码生成) 63.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 75.40
SWE-bench Verified (代码生成) 72.70
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 43.40
LiveCodeBench (代码生成) 48.50
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.40
AIME 2024 (数学推理) 50.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 49.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 91.40
AIME 2024 (数学推理) 53.30
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.40
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 31.50
参数(亿) 220
开源情况 不可以商用
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 37.90
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 77.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情