MATH-500 评测基准详情

在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

Views458
问题数量
500
发布机构
OpenAI
评测类别
数学推理
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

MATH-500 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

MATH-500详细排名数据表格

将鼠标移至此处继续加载剩余 12 条