加载中...
本页面汇总了当前业界主流的大模型评测基准,包括AIME 2025, SWE Bench Verified, MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台,帮助大家了解不同大模型在各种评测数据集上的性能表现。
大模型在评测基准的详细评测结果:主流大模型评测基准榜单
正在加载评测基准...