模型评测对比
最新基准汇总
Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型对比
本页面提供Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型在ARC-AGI,ARC-AGI-2,GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME 2024,AIME2025,FrontierMath,FrontierMath - Tier 4,IMO-ProofBench,IOI 2024,IOI 2025,Aider-Polyglot,Terminal-Bench,τ²-Bench,τ²-Bench - Telecom,MMMU,IF Bench,Simple Bench,BrowseComp,Creative Writing等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Haiku 4.5
Anthropic 发布的多模态大模型模型。
Claude Sonnet 4
Anthropic 发布的推理大模型模型。
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型各评测基准得分对比表
| 评测基准 |
Haiku 4.5
thinking
|
Haiku 4.5
normal
|
Haiku 4.5
thinking + 使用工具
|
Haiku 4.5
normal + 使用工具
|
Claude Sonnet 4
thinking
|
Claude Sonnet 4
normal
|
Claude Sonnet 4
deeper_thinking + 使用工具
|
Claude Sonnet 4
parallel_thinking + 使用工具
|
Claude Sonnet 4
thinking + 使用工具
|
Claude Sonnet 4
normal + 使用工具
|
Claude Sonnet 4.5
thinking
|
Claude Sonnet 4.5
normal
|
Claude Sonnet 4.5
parallel_thinking + 使用工具
|
Claude Sonnet 4.5
thinking + 使用工具
|
Claude Sonnet 4.5
normal + 使用工具
|
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
ARC-AGI
综合评估
|
47.7 | 14.3 | -- | -- | 40 | 23.8 | -- | -- | -- | -- | 63.7 | 25.5 | -- | -- | -- |
|
ARC-AGI-2
综合评估
|
4.5 | 1.3 | -- | -- | 5.9 | 1.3 | -- | -- | -- | -- | 13.6 | 3.8 | -- | -- | -- |
|
GPQA Diamond
综合评估
|
73.3 | 60.5 | -- | -- | 75.4 | 68 | 83.8 | -- | -- | -- | 83.4 | 73.7 | -- | -- | -- |
|
HLE
综合评估
|
9.7 | 4.3 | -- | -- | 9.6 | 5.52 | -- | -- | -- | -- | 17.3 | 7.1 | -- | -- | -- |
|
LiveBench
综合评估
|
71.38 | 60.42 | -- | -- | 73.82 | 65.4 | -- | -- | -- | -- | 78.26 | 70.56 | -- | -- | -- |
|
MMLU Pro
综合评估
|
76 | 80 | -- | -- | 84 | -- | -- | -- | -- | -- | 88 | -- | -- | -- | -- |
|
LiveCodeBench
编程与软件工程
|
62 | 51 | -- | -- | 66 | 48.5 | -- | -- | -- | -- | 71 | 59 | -- | -- | -- |
|
SWE-Bench Pro - Public
编程与软件工程
|
39.45 | -- | -- | -- | 42.7 | -- | -- | -- | -- | -- | 43.6 | -- | -- | -- | -- |
|
SWE-bench Verified
编程与软件工程
|
-- | 60.6 | 73.3 | -- | -- | -- | -- | 80.2 | 72.7 | -- | -- | 64.8 | 82 | 77.2 | -- |
|
AIME 2024
数学推理
|
-- | -- | -- | -- | -- | 43.4 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
AIME2025
数学推理
|
80.7 | 39 | 96.3 | -- | 70.5 | 38 | 85 | -- | -- | -- | 87 | 37 | -- | 100 | -- |
|
FrontierMath
数学推理
|
-- | 4.1 | -- | -- | -- | 4.1 | -- | -- | -- | -- | -- | 5.2 | -- | -- | -- |
|
FrontierMath - Tier 4
数学推理
|
-- | -- | -- | -- | -- | 0.01 | -- | -- | -- | -- | -- | 2.1 | -- | -- | -- |
|
IMO-ProofBench
数学推理
|
-- | -- | -- | -- | 4.8 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
IOI 2024
数学推理
|
-- | -- | -- | -- | 5.2 | 9.7 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
IOI 2025
数学推理
|
-- | -- | -- | -- | 4 | 3.3 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
Aider-Polyglot
Agent能力评测
|
-- | -- | -- | -- | 61.3 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
Terminal-Bench
Agent能力评测
|
-- | -- | 41 | 26 | -- | -- | 41.3 | -- | 35.5 | 26 | -- | -- | -- | 50 | 27 |
|
τ²-Bench
Agent能力评测
|
-- | -- | -- | 33 | -- | -- | -- | -- | 65 | 52 | -- | -- | -- | 84.7 | 71 |
|
τ²-Bench - Telecom
Agent能力评测
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 98 | -- |
|
MMMU
多模态理解
|
73.2 | -- | -- | -- | -- | 76.5 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
IF Bench
指令跟随
|
54.3 | -- | -- | -- | -- | -- | -- | -- | -- | -- | 57.3 | -- | -- | -- | -- |
|
Simple Bench
常识推理
|
-- | -- | -- | -- | 45.5 | -- | -- | -- | -- | -- | -- | 54.3 | -- | -- | -- |
|
BrowseComp
AI Agent - 信息收集
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 24.1 | -- |
|
Creative Writing
写作和创作
|
-- | -- | -- | -- | -- | 83.05 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
Anthropic