本页面提供最新、最全面的大模型数学推理能力评测排行榜。 我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括OpenAI的GPT-4o、Anthropic的Claude 4 Opus、阿里巴巴的Qwen3、DeepSeek-R1等在内的全球领先大模型进行深度评测。
在这里,您可以直观地对比各大模型在逻辑推理、应用题解答、几何与代数问题处理等方面的真实表现。 自由选择您关注的模型和评测基准,一键生成对比图表,为您的技术选型和学术研究提供精准、可靠的数据支持。
所有评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
数据地址:https://www.datalearner.com/ai-benchmarks/math-reasoning-leaderboard