DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
AI模型评测对比

LLM Benchmark Comparison

Compare benchmark scores across multiple LLMs to find the best-performing model for your needs.

💡Select at least two models. When no benchmarks are chosen, common leaderboards will be prefilled to generate results quickly.

Need to compare model parameters, pricing, and specs?,Go to Specs Compare →

1Select models已选: 0

No models selected yet
  • Minimax M3
    By MiniMaxAI
  • Qwen3.5-27B
    By 阿里巴巴
  • Qwen3.5-122B-A10B
    By 阿里巴巴
  • Qwen3.5-35B-A3B
    By 阿里巴巴
  • GPT-5.3
    By OpenAI
  • Gemini 3.1 Pro Preview
    By Google Deep Mind
  • Grok 4.2(未发布/传闻)
    By xAI
  • DeepSeek V4
    By DeepSeek-AI
  • Claude Sonnet 4.6
    By Anthropic
  • Qwen3.5-9B-Instruct
    By 阿里巴巴
  • Qwen3.5-35B-A3B-Instruct
    By 阿里巴巴
  • Qwen3.5-397B-A17B
    By 阿里巴巴
  • Gemini 3 Deep Think - 2620
    By Google Deep Mind
  • MiniMax M2.5
    By MiniMaxAI
  • GPT-5.3-Codex-Spark
    By OpenAI
  • GLM-5
    By 智谱AI
  • Seedance 2.0
    By 字节跳动Seed团队
  • Qwen-Image-2.0
    By 阿里巴巴
  • Claude Sonnet 5
    By Anthropic
  • Claude Opus 4.6
    By Anthropic
  • GPT-5.3 Codex
    By OpenAI
  • GLM-OCR
    By 智谱AI
  • Qwen3-Coder-Next
    By 阿里巴巴
  • Step 3.5 Flash
    By StepFunAI
  • Qwen3-ASR
    By 阿里巴巴
  • PaddleOCR-VL-1.5
    By 百度
  • HunyuanImage-3.0-Instruct
    By 腾讯AI实验室
  • DeepSeek-OCR 2
    By DeepSeek-AI
  • Kimi K2.5
    By Moonshot AI
  • Qwen3-Max-Thinking
    By 阿里巴巴
  • Qwen3-TTS 1.7B
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-CustomVoice
    By 阿里巴巴
  • Qwen3-TTS-12Hz-0.6B-Base
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign
    By 阿里巴巴
  • Qwen3-TTS-12Hz-1.7B-Base
    By 阿里巴巴
  • Qwen3-TTS-12Hz-0.6B-CustomVoice
    By 阿里巴巴
  • Stable-DiffCoder-8B-Base
    By 字节跳动Seed团队
  • GLM-4.7-Flash
    By 智谱AI
  • TranslateGemma 4B
    By Google Deep Mind
  • TranslateGemma 12B
    By Google Deep Mind
  • TranslateGemma 27B
    By Google Deep Mind
  • Qwen3-TTS 0.6B
    By 阿里巴巴
  • MiniMax-M2.2
    By MiniMaxAI
  • GLM-Image
    By 智谱AI
  • Baichuan-M3-235B
    By 百川智能
  • MedGemma 1.5
    By Google Research
  • AgentCPM-Explore
    By OpenBMB
  • Qwen3-VL-Embedding-2B
    By 阿里巴巴
  • Qwen3-VL-Embedding-8B
    By 阿里巴巴
  • Qwen3-VL-Reranker-2B
    By 阿里巴巴

2Benchmarks (optional)已选: 0

No benchmarks selected yet
  • MMLU
    综合评估
  • MMLU Pro
    综合评估
  • GSM8K
    数学推理
  • HumanEval
    编程与软件工程
  • MBPP
    编程与软件工程
  • HellaSwag
    常识推理
  • ARC
    常识推理
  • TruthfulQA
    真实性评估
  • BIG-bench
    综合评估
  • C-Eval
    综合评估
  • SuperGLUE
    自然语言理解
  • DROP
    阅读理解
  • MATH
    数学推理
  • BBH
    综合评估
  • ARC-AGI
    综合评估
  • HLE
    综合评估
  • GPQA Diamond
    综合评估
  • SimpleQA
    常识问答
  • SWE-bench
    编程与软件工程
  • SWE-bench Verified
    编程与软件工程
  • MATH-500
    数学推理
  • AIME 2024
    数学推理
  • IC SWE-Lancer(Diamond)
    编程与软件工程
  • SWE Manager Lancer(Diamond)
    编程与软件工程
  • LiveCodeBench
    编程与软件工程
  • GPQA
    综合评估
  • AIME2025
    数学推理
  • ARC-AGI-2
    综合评估
  • Creative Writing
    写作和创作
  • MTEB
    文本向量检索
  • Terminal-Bench
    AI Agent - 工具使用
  • MMMU
    多模态理解
  • SimpleVQA
    多模态理解
  • CodeForces
    编程与软件工程
  • Simple Bench
    常识推理
  • IMO 2024
    数学推理
  • IMO 2025
    数学推理
  • Aider-Polyglot
    Agent能力评测
  • τ²-Bench
    Agent能力评测
  • FrontierMath
    数学推理
  • FrontierMath - Tier 4
    数学推理
  • DocVQA
    多模态理解
  • SWE-Bench Pro - Public
    编程与软件工程
  • SWE-Bench Pro - Commercial
    编程与软件工程
  • τ²-Bench - Telecom
    Agent能力评测
  • IF Bench
    指令跟随
  • BrowseComp
    AI Agent - 信息收集
  • LiveBench
    综合评估
  • IMO-ProofBench
    数学推理
  • Terminal Bench Hard
    Agent能力评测
  • Terminal Bench 2.0
    AI Agent - 工具使用
  • IMO-ProofBench Advanced
    数学推理
  • Tool Decathlon
    AI Agent - 工具使用
  • Context Arena
    文本向量检索
  • MMEB-v2-Image
    图像向量嵌入
  • IMO-AnswerBench
    数学推理
  • GDPval-AA
    生产力知识
  • AA-LCR
    长上下文能力
  • AIME 2026
    数学推理
  • OSWorld-Verified
    AI Agent - 工具使用
🔥

Popular comparisons

【数据对比】Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max,谁才是 2026 开年的性价比之王?

深入解析 Stepfun-Flash-3.5 的极致推理效率、Kimi-k2.5 的工程逻辑深度与 Qwen3-Max 的全能基准表现,揭示国产大模型在‘快’与‘强’之间的最新平衡。

Kimi K2.5和Qwen3-Max-Thinking哪个更强?Kimi K2.5和Qwen3-Max-Thinking评测对比

Kimi K2.5和Qwen3-Max-Thinking哪个更强?Kimi K2.5和Qwen3-Max-Thinking评测对比

国产最新2大开源模型对比:MiniMax M2.1 v.s. GLM 4.7

2025年最后一个月国产最新2大开源模型小幅升级版本对比:MiniMax M2.1 v.s. GLM 4.7

Gemini 3.0 Flash 与 上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Gemini 3.0 Flash比前代Gemini 2.5 Pro的对比

Claude Haiku 4.5与Claude 4 Sonnet和Claude Sonnet 4.5的对比

Claude Haiku 4.5与Anthropic的前代模型对比

DeepSeek V3.1与DeepSeek V3、DeepSeek-R1对比

最新DeepSeek-V3.1和前代DeepSeek-V3和DeepSeek-R1的评测对比

Qwen3-235B-A22B与GPT OSS 120B模型对比

中美最强开源大模型对比

GPT-5与Gemini-2.5-Pro、Grok 4模型对比

GPT-5、Gemini 2.5 Pro和Gro4三大模型对比

如何用 DataLearnerAI 进行大模型对比与选型?

这个页面聚合了 DataLearnerAI 收录的主流大模型与评测榜单数据,支持按模型名称和评测基准搜索、勾选,然后一键生成对比结果页。 对比结果中会展示各模型的参数规模、上下文长度、开源与商用授权信息以及在公开评测榜单上的得分。

典型使用场景包括:为企业内部选型不同厂商的大模型 API、在科研中对比多种基础模型在同一评测集上的表现,或为个人项目挑选适合中文、代码、推理等任务的大模型。

如果你已经知道希望对比的模型名称(例如 GPT-4o、Qwen、Llama 等),可以先在左侧搜索并勾选模型,再在右侧选择 MMLU、GSM8K 等评测基准,最后点击上方按钮生成可视化对比页面,便于与团队共享和讨论。