大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

Data source: 论文或GitHub评测结果

Model	Parameters	HumanEval Pass@1	MBPP Pass@1	Organization	License
OpenAI o1-mini	/	92.40	/	OpenAI	/
Claude 3.5 Sonnet	/	92	/	Anthropic	/
Llama3.1-405B Instruct	4050.0	89	88.60

Data is for reference only. Official sources are authoritative. Click model names to view DataLearner model profiles.