DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜Artificial Analysis Intelligence Index AI模型智能指数排行榜

Artificial Analysis Intelligence Index AI模型智能指数排行榜

Artificial Analysis Intelligence Index v4.0 综合了10项权威评测基准(GDPval-AA、Terminal-Bench、GPQA Diamond、SciCode等),从数学、科学、编程、推理等多维度对AI模型进行全面评估和排名。

榜首模型

Kimi K2.6

最高得分

54

模型数量

212

数据版本

2026年05月10日

数据来源: Artificial Analysis

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称智能指数机构
6Moonshot AIKimi K2.6Moonshot AI54Moonshot AI
14DeepSeek-AIDeepSeek-V4-Pro (max)DeepSeek-AI52DeepSeek-AI
18DeepSeek-AIDeepSeek-V4-Pro (high)DeepSeek-AI50DeepSeek-AI
20MiniMaxAIMiniMax-M2.7MiniMaxAI50MiniMaxAI
25DeepSeek-AIDeepSeek-V4-Flash (max)DeepSeek-AI47DeepSeek-AI
30DeepSeek-AIDeepSeek-V4-Flash (high)DeepSeek-AI45DeepSeek-AI
36Moonshot AIKimi K2.6Moonshot AI43Moonshot AI
39TencentHy3-previewTencent42Tencent
46DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI39DeepSeek-AI
51StepFunAIStep 3.5 FlashStepFunAI38StepFunAI
55Moonshot AIKimi K2.5Moonshot AI37Moonshot AI
58DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI36DeepSeek-AI
67TencentHy3-previewTencent34Tencent
69ByteDance SeedDoubao Seed CodeByteDance Seed34ByteDance Seed
97AlibabaQwen3.5 4BAlibaba27Alibaba
98DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI27DeepSeek-AI
118AlibabaQwen3.5 4BAlibaba23Alibaba
142AlibabaQwen3.5 2BAlibaba16Alibaba
145DeepSeek-AIDeepSeek-R1-Distill-Llama-70BDeepSeek-AI16DeepSeek-AI
149StepFunStep3 VL 10BStepFun15StepFun
160AlibabaQwen3.5 2BAlibaba15Alibaba
164KimiKimi Linear 48B A3B InstructKimi14Kimi
183AlibabaQwen3.5 0.8BAlibaba11Alibaba
189AlibabaQwen3.5 0.8BAlibaba10Alibaba

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

评测基准组成(Intelligence Index v4.0)

Intelligence Index 综合10项严格的评测基准,全面衡量AI模型能力,避免单一维度的过拟合。

GDPval-AA
智能体真实任务
τ²-Bench
智能体工具调用
Terminal-Bench
智能体编程
SciCode
编程能力
AA-LCR
长上下文推理
AA-Omniscience
知识与幻觉检测
IFBench
指令遵循
Humanity's Last Exam
推理与知识
GPQA Diamond
科学推理
CritPt
物理推理

常见问题 (FAQ)

什么是 Artificial Analysis Intelligence Index?▼
Artificial Analysis Intelligence Index v4.0 是一个综合评测指数,聚合了10项具有挑战性的评估——涵盖数学、科学、编程、智能体任务和推理——以全面衡量AI能力。它旨在防止单一维度的过拟合,提供一个统一分数来追踪模型进步。
智能指数是如何计算的?▼
该指数综合了10项评测的分数:GDPval-AA(智能体真实任务)、τ²-Bench(工具调用)、Terminal-Bench Hard(智能体编程)、SciCode(编程)、AA-LCR(长上下文推理)、AA-Omniscience(知识与幻觉检测)、IFBench(指令遵循)、Humanity's Last Exam(推理)、GPQA Diamond(科学推理)和 CritPt(物理推理)。所有测试由 Artificial Analysis 在标准化硬件上独立运行。
这与 LMArena 排行榜有什么区别?▼
LMArena 排名基于众包用户投票(盲测A/B对比的Elo评分),反映主观的人类偏好。而 Artificial Analysis Intelligence Index 使用标准化的自动评测基准进行客观评分,衡量特定领域的技术能力。两者各有价值——LMArena 捕捉真实用户体验,而 AA Intelligence Index 提供可复现的技术测量。
在哪里可以找到原始数据?▼
原始排行榜和详细方法论可在 artificialanalysis.ai 查看。Intelligence Index 的方法论详见 Intelligence Index 页面。