综合排名
目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。





单项评测排名
按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。
AI 模型推荐
按 SWE-bench Verified 排序大模型性能评测结果
数据来源:DataLearnerAI点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。表中分数为各评测模式中的最高得分。
排行榜常见问题
排行榜上收录了哪些开源大模型?
榜单聚合开放权重或代码公开的大模型,包括 Llama、Qwen、DeepSeek、Mistral、GLM 等模型。这里可能包含宽松协议、非商用协议或其他受限商用协议;GPT、Claude 等仅 API 可用的闭源模型不在此列表中,可在主排行榜查看。
为什么同一模型在不同基准上分数差异很大?
每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。
排行榜多久更新一次?
数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。
综合排名应该怎么解读?
综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。
这些开源大模型可以本地运行吗?
大多数榜单上的开源模型在 Hugging Face 或 GitHub 公开权重,可通过 vLLM、Ollama、llama.cpp 等推理框架部署。硬件需求随参数规模上升:7B 模型可在单张消费级 GPU 运行,65B 以上通常需要多卡或量化部署。
探索更多
排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。









