Artificial Analysis Intelligence Index AI模型智能指数排行榜
Artificial Analysis Intelligence Index v4.0 综合了10项权威评测基准(GDPval-AA、Terminal-Bench、GPQA Diamond、SciCode等),从数学、科学、编程、推理等多维度对AI模型进行全面评估和排名。
榜首模型
MiniMax-M3
最高得分
44
模型数量
214
数据版本
2026年06月19日
数据来源: Artificial Analysis
排名总表
| 排名 | 模型名称 | 智能指数 | 机构 |
|---|---|---|---|
| 13 | MiniMax-M3MiniMax | 44 | MiniMax |
| 14 | DeepSeek-V4-Pro (max)DeepSeek-AI | 44 | DeepSeek-AI |
| 17 | Kimi K2.6Moonshot AI | 43 | Moonshot AI |
| 20 | Kimi K2.7 CodeKimi | 42 | Kimi |
| 22 | DeepSeek-V4-Pro (high)DeepSeek-AI | 41 | DeepSeek-AI |
| 23 | DeepSeek-V4-Flash (max)DeepSeek-AI | 40 | DeepSeek-AI |
| 28 | Qwen3.7 PlusAlibaba | 39 | Alibaba |
| 30 | 38 | MiniMaxAI | |
| 34 | DeepSeek-V4-Flash (high)DeepSeek-AI | 37 | DeepSeek-AI |
| 43 | Kimi K2.6Moonshot AI | 35 | Moonshot AI |
| 54 | DeepSeek-V4-ProDeepSeek-AI | 31 | DeepSeek-AI |
| 61 | Step 3.7 FlashStepFun | 30 | StepFun |
| 66 | DeepSeek-V4-FlashDeepSeek-AI | 29 | DeepSeek-AI |
| 73 | Step 3.5 FlashStepFunAI | 26 | StepFunAI |
| 74 | Doubao Seed CodeByteDance Seed | 26 | ByteDance Seed |
| 103 | Qwen3.5 4BAlibaba | 20 | Alibaba |
| 121 | Qwen3.5 4BAlibaba | 16 | Alibaba |
| 145 | Qwen3.5 2BAlibaba | 10 | Alibaba |
| 151 | Step3 VL 10BStepFun | 9 | StepFun |
| 162 | Qwen3.5 2BAlibaba | 9 | Alibaba |
| 165 | Kimi Linear 48B A3B InstructKimi | 9 | Kimi |
| 184 | Qwen3.5 0.8BAlibaba | 5 | Alibaba |
| 190 | Qwen3.5 0.8BAlibaba | 4 | Alibaba |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
评测基准组成(Intelligence Index v4.0)
Intelligence Index 综合10项严格的评测基准,全面衡量AI模型能力,避免单一维度的过拟合。
GDPval-AA
智能体真实任务
τ²-Bench
智能体工具调用
Terminal-Bench
智能体编程
SciCode
编程能力
AA-LCR
长上下文推理
AA-Omniscience
知识与幻觉检测
IFBench
指令遵循
Humanity's Last Exam
推理与知识
GPQA Diamond
科学推理
CritPt
物理推理
常见问题 (FAQ)
什么是 Artificial Analysis Intelligence Index?▼
Artificial Analysis Intelligence Index v4.0 是一个综合评测指数,聚合了10项具有挑战性的评估——涵盖数学、科学、编程、智能体任务和推理——以全面衡量AI能力。它旨在防止单一维度的过拟合,提供一个统一分数来追踪模型进步。
智能指数是如何计算的?▼
该指数综合了10项评测的分数:GDPval-AA(智能体真实任务)、τ²-Bench(工具调用)、Terminal-Bench Hard(智能体编程)、SciCode(编程)、AA-LCR(长上下文推理)、AA-Omniscience(知识与幻觉检测)、IFBench(指令遵循)、Humanity's Last Exam(推理)、GPQA Diamond(科学推理)和 CritPt(物理推理)。所有测试由 Artificial Analysis 在标准化硬件上独立运行。
这与 LMArena 排行榜有什么区别?▼
LMArena 排名基于众包用户投票(盲测A/B对比的Elo评分),反映主观的人类偏好。而 Artificial Analysis Intelligence Index 使用标准化的自动评测基准进行客观评分,衡量特定领域的技术能力。两者各有价值——LMArena 捕捉真实用户体验,而 AA Intelligence Index 提供可复现的技术测量。
在哪里可以找到原始数据?▼
原始排行榜和详细方法论可在 artificialanalysis.ai 查看。Intelligence Index 的方法论详见 Intelligence Index 页面。





