Artificial Analysis Intelligence Index AI模型智能指数排行榜

Artificial Analysis Intelligence Index v4.0 综合了10项权威评测基准(GDPval-AA、Terminal-Bench、GPQA Diamond、SciCode等),从数学、科学、编程、推理等多维度对AI模型进行全面评估和排名。

榜首模型

MiniMax-M3

最高得分

44

模型数量

214

数据版本

2026年06月19日

数据来源: Artificial Analysis

榜单历史快照月份:

排名总表

排名模型名称智能指数机构
13MiniMaxMiniMax-M3MiniMax44MiniMax
14DeepSeek-AIDeepSeek-V4-Pro (max)DeepSeek-AI44DeepSeek-AI
17Moonshot AIKimi K2.6Moonshot AI43Moonshot AI
20KimiKimi K2.7 CodeKimi42Kimi
22DeepSeek-AIDeepSeek-V4-Pro (high)DeepSeek-AI41DeepSeek-AI
23DeepSeek-AIDeepSeek-V4-Flash (max)DeepSeek-AI40DeepSeek-AI
28AlibabaQwen3.7 PlusAlibaba39Alibaba
30MiniMaxAIMiniMax-M2.7MiniMaxAI38MiniMaxAI
34DeepSeek-AIDeepSeek-V4-Flash (high)DeepSeek-AI37DeepSeek-AI
43Moonshot AIKimi K2.6Moonshot AI35Moonshot AI
54DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI31DeepSeek-AI
61StepFunStep 3.7 FlashStepFun30StepFun
66DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI29DeepSeek-AI
73StepFunAIStep 3.5 FlashStepFunAI26StepFunAI
74ByteDance SeedDoubao Seed CodeByteDance Seed26ByteDance Seed
103AlibabaQwen3.5 4BAlibaba20Alibaba
121AlibabaQwen3.5 4BAlibaba16Alibaba
145AlibabaQwen3.5 2BAlibaba10Alibaba
151StepFunStep3 VL 10BStepFun9StepFun
162AlibabaQwen3.5 2BAlibaba9Alibaba
165KimiKimi Linear 48B A3B InstructKimi9Kimi
184AlibabaQwen3.5 0.8BAlibaba5Alibaba
190AlibabaQwen3.5 0.8BAlibaba4Alibaba

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

评测基准组成(Intelligence Index v4.0)

Intelligence Index 综合10项严格的评测基准,全面衡量AI模型能力,避免单一维度的过拟合。

GDPval-AA
智能体真实任务
τ²-Bench
智能体工具调用
Terminal-Bench
智能体编程
SciCode
编程能力
AA-LCR
长上下文推理
AA-Omniscience
知识与幻觉检测
IFBench
指令遵循
Humanity's Last Exam
推理与知识
GPQA Diamond
科学推理
CritPt
物理推理

常见问题 (FAQ)

什么是 Artificial Analysis Intelligence Index?
Artificial Analysis Intelligence Index v4.0 是一个综合评测指数,聚合了10项具有挑战性的评估——涵盖数学、科学、编程、智能体任务和推理——以全面衡量AI能力。它旨在防止单一维度的过拟合,提供一个统一分数来追踪模型进步。
智能指数是如何计算的?
该指数综合了10项评测的分数:GDPval-AA(智能体真实任务)、τ²-Bench(工具调用)、Terminal-Bench Hard(智能体编程)、SciCode(编程)、AA-LCR(长上下文推理)、AA-Omniscience(知识与幻觉检测)、IFBench(指令遵循)、Humanity's Last Exam(推理)、GPQA Diamond(科学推理)和 CritPt(物理推理)。所有测试由 Artificial Analysis 在标准化硬件上独立运行。
这与 LMArena 排行榜有什么区别?
LMArena 排名基于众包用户投票(盲测A/B对比的Elo评分),反映主观的人类偏好。而 Artificial Analysis Intelligence Index 使用标准化的自动评测基准进行客观评分,衡量特定领域的技术能力。两者各有价值——LMArena 捕捉真实用户体验,而 AA Intelligence Index 提供可复现的技术测量。
在哪里可以找到原始数据?
原始排行榜和详细方法论可在 artificialanalysis.ai 查看。Intelligence Index 的方法论详见 Intelligence Index 页面