加载中...
加载中...
一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | OpenAI o3-mini (high)default | 97.9 | 2025-01-31 | 未知 |
| 2 | OpenAI o1default | 96.4 | 2024-12-05 | 未知 |
| 3 | Hunyuan-A13B-Instructdefault | 94.3 | 2025-06-27 | 800 |
| 4 | Gemini 2.0 Pro Experimentaldefault | 91.8 | 2025-02-05 | 未知 |
| 5 | Hunyuan-TurboSdefault | 89.7 | 2025-03-10 | 未知 |
| 6 | Gemma 3 - 27B (IT)default | 89 | 2025-03-12 | 270 |
| 7 | DeepSeek-V3default | 87.8 | 2024-12-26 | 6810 |
| 8 | Gemini 2.0 Flash-Litedefault | 86.8 | 2025-02-05 | 未知 |
| 9 | Gemma 3 - 12B (IT)default | 83.8 | 2025-03-12 | 120 |
| 10 | Qwen2.5-32Bdefault | 83.1 | 2024-09-18 | 320 |
| 11 | Gemini 1.5 Prodefault | 82.9 | 2024-02-15 | 未知 |
| 12 | Claude 3.5 Sonnet Newdefault | 78.3 | 2024-10-22 | 未知 |
| 13 | Llama3.3-70B-Instructdefault | 77 | 2024-12-06 | 700 |
| 14 | Amazon Nova Prodefault | 76.6 | 2024-12-03 | 未知 |
| 15 | Grok 2default | 76.1 | 2024-08-13 | 2690 |
| 16 | GPT-4odefault | 75.9 | 2024-05-13 | 未知 |
| 17 | Llama3.1-405B Instructdefault | 73.9 | 2024-07-23 | 4050 |
| 18 | Claude 3.5 Sonnetdefault | 71.1 | 2024-06-21 | 未知 |
| 19 | GPT-4o minidefault | 70.2 | 2024-07-18 | 未知 |
| 20 | Mistral-Small-3.2default | 69.42 | 2025-06-20 | 240 |
| 21 | C4AI Aya Vision 32Bdefault | 69.3 | 2025-03-04 | 320 |
| 22 | 69.3 | 2025-03-17 | 240 | |
| 23 | Claude 3.5 Haikudefault | 69.2 | 2024-10-22 | 未知 |
| 24 | Qwen2.5-Maxdefault | 68.5 | 2025-01-28 | 未知 |
| 25 | GPT-4o(2024-11-20)default | 68.5 | 2024-11-20 | 未知 |
| 26 | Llama3.1-70B-Instructdefault | 67.8 | 2024-07-23 | 700 |
| 27 | Phi-4-mini-instruct (3.8B)default | 64 | 2025-02-27 | 38 |
| 28 | Qwen3-Nextdefault | 62.36 | 2025-09-11 | 800 |
| 29 | Qwen2.5-72Bdefault | 62.1 | 2024-09-18 | 727 |
| 30 | Llama 4 Maverickdefault | 61.2 | 2025-04-05 | 4000 |