Claude Opus 4.8vsGPT-5.5

在 4 个共同 benchmark 中，Claude Opus 4.8 整体领先：Claude Opus 4.8 领先 4 项，GPT-5.5 领先 0 项，持平 0 项，平均分差 +35.50。

Anthropic · 2026-05-28 · 推理大模型

OpenAI · 2026-04-23 · 推理大模型

Claude Opus 4.84 项(100%)(0%)0 项GPT-5.5

评测分数

按能力类目分组，每组内按分差大小排列；共 4 项。

Claude Opus 4.8 领先 1/1

评测项	Claude Opus 4.8	GPT-5.5	分差
OSWorld-Verified	83.401 / 16Extended (with tools)	78.703 / 16Thinking High (With Tools)	+4.70

Claude Opus 4.8 领先 1/1

评测项	Claude Opus 4.8	GPT-5.5	分差
GDPval-AA	1,8901 / 21Extended (with tools)	1,7692 / 21Thinking High (No Tools)

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Claude Opus 4.8在以下类目领先:AI Agent - 工具使用 (1/1)、生产力知识 (1/1)、综合评估 (1/1)、编程与软件工程 (1/1)

4 个共同 benchmark 上，Claude Opus 4.8 平均高出 35.50 分。

单项差距最大的 benchmark：GDPval-AA — Claude Opus 4.8 1,890，GPT-5.5 1,769（分差 +121）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。