GPT-5.4 minivsHaiku 4.5

在 7 个共同 benchmark 中，GPT-5.4 mini 整体领先：GPT-5.4 mini 领先 4 项，Haiku 4.5 领先 2 项，持平 1 项，平均分差 +10.52。

OpenAI · 2026-03-17 · 推理大模型

Anthropic · 2025-10-15 · 多模态大模型

GPT-5.4 mini4 项(57%)持平1(29%)2 项Haiku 4.5

评测分数

按能力类目分组，每组内按分差大小排列；共 7 项。

GPT-5.4 mini 领先 2/3

评测项	GPT-5.4 mini	Haiku 4.5	分差
HLE	41.5057 / 172极高强度思考（工具）	4.30170 / 172Normal (No Tools)	+37.20
GPQA Diamond	8835 / 187极高强度思考（无工具）	60.50144 / 187Normal (No Tools)	+27.50
LiveBench	36.95112 / 115Normal (No Tools)	45.33103 / 115Normal (No Tools)	-8.38

GPT-5.4 mini 领先 1/1

评测项	GPT-5.4 mini	Haiku 4.5	分差
MCP-Atlas	56.7024 / 27极高强度思考（工具）	40.2027 / 27Normal (With Tools)	+16.50

Haiku 4.5 领先 1/1

评测项	GPT-5.4 mini	Haiku 4.5	分差
Claw Bench	75.3025 / 29Thinking (With Tools)	89.4011 / 29Thinking (With Tools)	-14.10

GPT-5.4 mini 领先 1/1

评测项	GPT-5.4 mini	Haiku 4.5	分差
SWE-Bench Pro - Public	54.4029 / 54极高强度思考（工具）	39.4551 / 54Extended (with tools)	+14.95

胶着 1/1

评测项	GPT-5.4 mini	Haiku 4.5	分差
FrontierMath - Tier 4	2.1056 / 80Thinking High (No Tools)	2.1056 / 80Thinking (No Tools, 32K Budget)	持平

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.4 mini在以下类目领先:General Knowledge (2/3)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)
Haiku 4.5在以下类目领先:Claw-style Agent Evaluation (1/1)
胶着类目:Math and Reasoning

7 个共同 benchmark 上，GPT-5.4 mini 平均高出 10.52 分。

单项差距最大的 benchmark：HLE — GPT-5.4 mini 41.50，Haiku 4.5 4.30（分差 +37.20）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。