MBPP 评测基准详情

Views503
问题数量
974
发布机构
个人
评测类别
编程与软件工程
评测指标
支持语言
英文
难度等级

简介

一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。

MBPP 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

MBPP详细排名数据表格