DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
AI模型评测对比

大模型评测对比中心

对比多个大模型在不同评测基准(Benchmark)上的表现得分,帮助您选择性能最优的模型。

💡至少选择 2 个模型,未选评测时会自动填充常见榜单,便于快速生成对比结果。

如需对比模型参数、价格等规格信息,前往模型规格对比 →

1选择模型已选: 0

暂未选择模型
  • Qwen3.5-35B-A3B-Instruct
    By 阿里巴巴
  • Qwen3.5-9B-Instruct
    By 阿里巴巴
  • GPT-5.3
    By OpenAI
  • GLM-5
    By 智谱AI
  • MiniMax-M2.2
    By MiniMaxAI
  • Claude 5 Sonnet
    By Anthropic
  • Claude Opus 4.6
    By Anthropic
  • GPT-5.3 Codex
    By OpenAI
  • GLM-OCR
    By 智谱AI
  • Qwen3-Coder-Next
    By 阿里巴巴
  • Step 3.5 Flash
    By StepFunAI
  • Qwen3-ASR
    By 阿里巴巴
  • PaddleOCR-VL-1.5
    By 百度
  • HunyuanImage-3.0-Instruct
    By 腾讯AI实验室
  • DeepSeek-OCR 2
    By DeepSeek-AI
  • Kimi K2.5
    By Moonshot AI
  • Qwen3-Max-Thinking
    By 阿里巴巴
  • Qwen3-TTS 1.7B
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-CustomVoice
    By 阿里巴巴
  • Qwen3-TTS-12Hz-0.6B-Base
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-Base
    By 阿里巴巴
  • Qwen3-TTS-12Hz-0.6B-CustomVoice
    By 阿里巴巴
  • Stable-DiffCoder-8B-Base
    By 字节跳动Seed团队
  • MiniMax M2.5
    By MiniMaxAI
  • GLM-4.7-Flash
    By 智谱AI
  • TranslateGemma 4B
    By Google Deep Mind
  • TranslateGemma 12B
    By Google Deep Mind
  • TranslateGemma 27B
    By Google Deep Mind
  • Qwen3-TTS 0.6B
    By 阿里巴巴
  • GLM-Image
    By 智谱AI
  • Baichuan-M3-235B
    By 百川智能
  • MedGemma 1.5
    By Google Research
  • AgentCPM-Explore
    By OpenBMB
  • Qwen3-VL-Embedding-2B
    By 阿里巴巴
  • Qwen3-VL-Embedding-8B
    By 阿里巴巴
  • Qwen3-VL-Reranker-2B
    By 阿里巴巴
  • Qwen3-VL-Reranker-8B
    By 阿里巴巴
  • Grok 4.2(未发布/传闻)
    By xAI
  • IQuest-Coder-V1-40B-Instruct
    By iquestlab
  • IQuest-Coder-V1-40B-Loop-Instruct
    By iquestlab
  • Qwen-Image-2512
    By 阿里巴巴
  • XVERSE-Ent-A4.2B
    By 元象XVERSE
  • XVERSE-Ent-A5.7B
    By 元象XVERSE
  • NextStep-1.1
    By StepFunAI
  • M2.1
    By MiniMaxAI
  • Qwen-Image-Edit-2511
    By 阿里巴巴
  • GLM-4.7
    By 智谱AI
  • Nano Banana 2(未发布/传闻)
    By Google Deep Mind
  • GPT-5.2-Codex
    By OpenAI

2选择评测(可选)已选: 0

暂未选择评测
  • MMLU
    综合评估
  • MMLU Pro
    综合评估
  • GSM8K
    数学推理
  • HumanEval
    编程与软件工程
  • MBPP
    编程与软件工程
  • HellaSwag
    常识推理
  • ARC
    常识推理
  • TruthfulQA
    真实性评估
  • BIG-bench
    综合评估
  • C-Eval
    综合评估
  • SuperGLUE
    自然语言理解
  • DROP
    阅读理解
  • MATH
    数学推理
  • BBH
    综合评估
  • ARC-AGI
    综合评估
  • HLE
    综合评估
  • GPQA Diamond
    综合评估
  • SimpleQA
    常识问答
  • SWE-bench
    编程与软件工程
  • SWE-bench Verified
    编程与软件工程
  • MATH-500
    数学推理
  • AIME 2024
    数学推理
  • IC SWE-Lancer(Diamond)
    编程与软件工程
  • SWE Manager Lancer(Diamond)
    编程与软件工程
  • LiveCodeBench
    编程与软件工程
  • GPQA
    综合评估
  • AIME2025
    数学推理
  • ARC-AGI-2
    综合评估
  • Creative Writing
    写作和创作
  • MTEB
    文本向量检索
  • Terminal-Bench
    AI Agent - 工具使用
  • MMMU
    多模态理解
  • SimpleVQA
    多模态理解
  • CodeForces
    编程与软件工程
  • Simple Bench
    常识推理
  • IMO 2024
    数学推理
  • IMO 2025
    数学推理
  • Aider-Polyglot
    Agent能力评测
  • τ²-Bench
    Agent能力评测
  • FrontierMath
    数学推理
  • FrontierMath - Tier 4
    数学推理
  • DocVQA
    多模态理解
  • SWE-Bench Pro - Public
    编程与软件工程
  • SWE-Bench Pro - Commercial
    编程与软件工程
  • τ²-Bench - Telecom
    Agent能力评测
  • IF Bench
    指令跟随
  • BrowseComp
    AI Agent - 信息收集
  • LiveBench
    综合评估
  • IMO-ProofBench
    数学推理
  • Terminal Bench Hard
    Agent能力评测
  • Terminal Bench 2.0
    AI Agent - 工具使用
  • IMO-ProofBench Advanced
    数学推理
  • Tool Decathlon
    AI Agent - 工具使用
  • Context Arena
    文本向量检索
  • MMEB-v2-Image
    图像向量嵌入
  • IMO-AnswerBench
    数学推理
  • GDPval-AA
    生产力知识
  • AA-LCR
    长上下文能力
🔥

热门对比配置

【数据对比】Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max,谁才是 2026 开年的性价比之王?

深入解析 Stepfun-Flash-3.5 的极致推理效率、Kimi-k2.5 的工程逻辑深度与 Qwen3-Max 的全能基准表现,揭示国产大模型在‘快’与‘强’之间的最新平衡。

Kimi K2.5和Qwen3-Max-Thinking哪个更强?Kimi K2.5和Qwen3-Max-Thinking评测对比

Kimi K2.5和Qwen3-Max-Thinking哪个更强?Kimi K2.5和Qwen3-Max-Thinking评测对比

国产最新2大开源模型对比:MiniMax M2.1 v.s. GLM 4.7

2025年最后一个月国产最新2大开源模型小幅升级版本对比:MiniMax M2.1 v.s. GLM 4.7

Gemini 3.0 Flash 与 上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Gemini 3.0 Flash比前代Gemini 2.5 Pro的对比

Claude Haiku 4.5与Claude 4 Sonnet和Claude Sonnet 4.5的对比

Claude Haiku 4.5与Anthropic的前代模型对比

DeepSeek V3.1与DeepSeek V3、DeepSeek-R1对比

最新DeepSeek-V3.1和前代DeepSeek-V3和DeepSeek-R1的评测对比

Qwen3-235B-A22B与GPT OSS 120B模型对比

中美最强开源大模型对比

GPT-5与Gemini-2.5-Pro、Grok 4模型对比

GPT-5、Gemini 2.5 Pro和Gro4三大模型对比

如何用 DataLearnerAI 进行大模型对比与选型?

这个页面聚合了 DataLearnerAI 收录的主流大模型与评测榜单数据,支持按模型名称和评测基准搜索、勾选,然后一键生成对比结果页。 对比结果中会展示各模型的参数规模、上下文长度、开源与商用授权信息以及在公开评测榜单上的得分。

典型使用场景包括:为企业内部选型不同厂商的大模型 API、在科研中对比多种基础模型在同一评测集上的表现,或为个人项目挑选适合中文、代码、推理等任务的大模型。

如果你已经知道希望对比的模型名称(例如 GPT-4o、Qwen、Llama 等),可以先在左侧搜索并勾选模型,再在右侧选择 MMLU、GSM8K 等评测基准,最后点击上方按钮生成可视化对比页面,便于与团队共享和讨论。