模型评测对比 最新基准汇总

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型对比

本页面提供Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型在ARC-AGI,ARC-AGI-2,GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME 2024,AIME2025,FrontierMath,FrontierMath - Tier 4,IMO-ProofBench,IOI 2024,IOI 2025,Aider-Polyglot,Terminal-Bench,τ²-Bench,τ²-Bench - Telecom,MMMU,IF Bench,Simple Bench,BrowseComp,Creative Writing等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Haiku 4.5
Haiku 4.5

Anthropic 发布的多模态大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-10-15
模型类型 多模态大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 65536
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Claude Sonnet 4
Claude Sonnet 4

Anthropic 发布的推理大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-05-23
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 64000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Claude Sonnet 4.5
Claude Sonnet 4.5

Anthropic 发布的聊天大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-09-30
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 65536
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型各评测基准得分对比表

评测基准
Haiku 4.5 thinking
Haiku 4.5 normal
Haiku 4.5 thinking + 使用工具
Haiku 4.5 normal + 使用工具
Claude Sonnet 4 thinking
Claude Sonnet 4 normal
Claude Sonnet 4 deeper_thinking + 使用工具
Claude Sonnet 4 parallel_thinking + 使用工具
Claude Sonnet 4 thinking + 使用工具
Claude Sonnet 4 normal + 使用工具
Claude Sonnet 4.5 thinking
Claude Sonnet 4.5 normal
Claude Sonnet 4.5 parallel_thinking + 使用工具
Claude Sonnet 4.5 thinking + 使用工具
Claude Sonnet 4.5 normal + 使用工具
ARC-AGI
综合评估
47.7 14.3 -- -- 40 23.8 -- -- -- -- 63.7 25.5 -- -- --
ARC-AGI-2
综合评估
4.5 1.3 -- -- 5.9 1.3 -- -- -- -- 13.6 3.8 -- -- --
GPQA Diamond
综合评估
73.3 60.5 -- -- 75.4 68 83.8 -- -- -- 83.4 73.7 -- -- --
HLE
综合评估
9.7 4.3 -- -- 9.6 5.52 -- -- -- -- 17.3 7.1 -- -- --
LiveBench
综合评估
71.38 60.42 -- -- 73.82 65.4 -- -- -- -- 78.26 70.56 -- -- --
MMLU Pro
综合评估
76 80 -- -- 84 -- -- -- -- -- 88 -- -- -- --
LiveCodeBench
编程与软件工程
62 51 -- -- 66 48.5 -- -- -- -- 71 59 -- -- --
SWE-Bench Pro - Public
编程与软件工程
39.45 -- -- -- 42.7 -- -- -- -- -- 43.6 -- -- -- --
SWE-bench Verified
编程与软件工程
-- 60.6 73.3 -- -- -- -- 80.2 72.7 -- -- 64.8 82 77.2 --
AIME 2024
数学推理
-- -- -- -- -- 43.4 -- -- -- -- -- -- -- -- --
AIME2025
数学推理
80.7 39 96.3 -- 70.5 38 85 -- -- -- 87 37 -- 100 --
FrontierMath
数学推理
-- 4.1 -- -- -- 4.1 -- -- -- -- -- 5.2 -- -- --
FrontierMath - Tier 4
数学推理
-- -- -- -- -- 0.01 -- -- -- -- -- 2.1 -- -- --
IMO-ProofBench
数学推理
-- -- -- -- 4.8 -- -- -- -- -- -- -- -- -- --
IOI 2024
数学推理
-- -- -- -- 5.2 9.7 -- -- -- -- -- -- -- -- --
IOI 2025
数学推理
-- -- -- -- 4 3.3 -- -- -- -- -- -- -- -- --
Aider-Polyglot
Agent能力评测
-- -- -- -- 61.3 -- -- -- -- -- -- -- -- -- --
Terminal-Bench
Agent能力评测
-- -- 41 26 -- -- 41.3 -- 35.5 26 -- -- -- 50 27
τ²-Bench
Agent能力评测
-- -- -- 33 -- -- -- -- 65 52 -- -- -- 84.7 71
τ²-Bench - Telecom
Agent能力评测
-- -- -- -- -- -- -- -- -- -- -- -- -- 98 --
MMMU
多模态理解
73.2 -- -- -- -- 76.5 -- -- -- -- -- -- -- -- --
IF Bench
指令跟随
54.3 -- -- -- -- -- -- -- -- -- 57.3 -- -- -- --
Simple Bench
常识推理
-- -- -- -- 45.5 -- -- -- -- -- -- 54.3 -- -- --
BrowseComp
AI Agent - 信息收集
-- -- -- -- -- -- -- -- -- -- -- -- -- 24.1 --
Creative Writing
写作和创作
-- -- -- -- -- 83.05 -- -- -- -- -- -- -- -- --

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Haiku 4.5 在不同模式下的表现

未在对比页指定评测基准,系统已自动加载 9 个评测类别, 共 25 项评测。

评测类别

综合评估评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 6 项榜单 · 全部模式 / 全部工具

评测类别

编程与软件工程评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 3 项榜单 · 全部模式 / 全部工具

评测类别

数学推理评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 7 项榜单 · 全部模式 / 全部工具

评测类别

Agent能力评测评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 4 项榜单 · 全部模式 / 全部工具

评测类别

多模态理解评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

指令跟随评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

常识推理评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

AI Agent - 信息收集评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

写作和创作评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型的API价格对比图 (文本输入/输出)

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型在各评测基准详细对比