Haiku 4.5 评测详情
Haiku 4.5 当前已收录的代表性评测结果包括 AIME2025(20 / 107,得分 96.30)、LiveBench(16 / 51,得分 71.38)、Terminal-Bench(11 / 35,得分 41)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。
评测结果
Haiku 4.5
评测结果
竞品对比
Haiku 4.5 与同类主流模型的评测得分对比
评测类别:
Haiku 4.5:
常规模式 + 工具
常规模式
GPT-5.4 mini:
思考模式 + 工具
Gemini 3.0 Flash:
thinking
开启 + 工具
开启 + 工具
评测得分对比
9 项可对比评测得分汇总
| 评测项 | Haiku 4.5(本模型) | GPT-5.4 mini | Gemini 3.0 Flash |
|---|---|---|---|
ARC-AGI-2 综合评估 | 4.50 扩展(无工具) | -- | 33.60 thinking |
GPQA Diamond 综合评估 | 73.30 扩展(无工具) | 88.00 极高强度思考(无工具) | 90.40 thinking |
HLE 综合评估 | 9.70 扩展(无工具) | 41.50 极高强度思考(工具) | 43.50 thinking + 使用工具 |
SWE-Bench Pro - Public 编程与软件工程 | 39.45 扩展(工具) | 54.40 极高强度思考(工具) | -- |
SWE-bench Verified 编程与软件工程 | 73.30 思考模式(工具,128K预算) | -- | 68.70 thinking |
AIME2025 数学推理 | 96.30 思考模式(工具,128K预算) | -- | 99.70 thinking + 使用工具 |
τ²-Bench Agent能力评测 | 33.00 常规模式(工具) | -- | 90.20 thinking + 使用工具 |
Claw Bench OpenClaw智能体能力综合测评 | 89.40 思考模式(工具) | 75.30 思考模式(工具) | 85.70 思考模式(工具) |
Pinch Bench OpenClaw智能体能力综合测评 | 82.00 思考模式(工具) | -- | 85.20 思考模式(工具) |
Haiku 4.5 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Haiku 4.5 当前模型 | — | 1 美元 / 100万 tokens | 5 美元 / 100万 tokens | — |
GPT-5.4 mini | OpenAI | $0.75 / 1M tokens | $4.5 / 1M tokens | — |
Gemini 3.0 Flash | — | 0.5 美元/100万 tokens | 3 美元/100万 tokens | — |
历代版本对比
Haiku 4.5 系列各版本的评测成绩纵向对比
评测类别:
Haiku 4.5:
常规模式
Claude 3.5 Haiku:
normal
评测得分对比
3 项可对比评测得分汇总
| 评测项 | Haiku 4.5(本模型) | Claude 3.5 Haiku |
|---|---|---|
GPQA Diamond 综合评估 | 73.30 扩展(无工具) | 41.60 normal |
MMLU Pro 综合评估 | 80.00 扩展(无工具) | 65.00 normal |
FrontierMath 数学推理 | 4.10 常规模式(无工具) | 0.30 normal |
Haiku 4.5 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
Haiku 4.5当前模型
标准输入: 1 美元 / 100万 tokens
标准输出: 5 美元 / 100万 tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Haiku 4.5 当前模型 | — | 1 美元 / 100万 tokens | 5 美元 / 100万 tokens | — |
系列版本评测总览
查看 Haiku 4.5 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | Claude 3.5 Haiku2024/10/22 | Haiku 4.52025/10/15 |
|---|---|---|
单评测模式关系图
当前查看:GPQA Diamond · 综合评估
选择评测