自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。
综合领先
Claude Opus 4.8 · 71.90
单项最高
Claude Opus 4.8 · SWE-bench Verified 88.60
模态覆盖
Claude Opus 4.8 · 1 种模态
正面对比
3
评测基准
3
领先项
0
落后项
+9.83
平均分差
完整列出各模型/模式的评测得分,便于横向比较。
3 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Claude Opus 4.8 | Gemini 3.1 Pro Preview |
|---|---|---|
HLE 综合评估 | 57.90扩展思考 | 工具 | 51.40思考水平·高 | 工具 |
SWE-Bench Pro - Public 编程与软件工程 | 69.20扩展思考 | 工具 | 54.20思考水平·高 | 工具 |
SWE-bench Verified 编程与软件工程 | 88.60扩展思考 | 工具 | 80.60思考水平·高 | 工具 |
输入输出 token 价格并排展示
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | Claude Opus 4.8Anthropic | Gemini 3.1 Pro PreviewGoogle Deep Mind |
|---|---|---|
核心规格发布时间 | 2026-05-28 | 2026-02-20 |
上下文 | 1M | 1M |
最大输出 | 128000 | 32768 |
MoE 架构 | 不支持 | 不支持 |
开源与许可代码开源 | 未提供 | 未提供 |
权重开源 | 未提供 | 未提供 |
商业授权 | 不开源 | 不开源 |
模态支持文本 输入/输出 | / | / |
资料来源论文 / 报告 | Introducing Claude Opus 4.8 | Gemini 3.1 Pro: A smarter model for your most complex tasks |
DataLearner 博客 | Anthropic发布Claude Opus 4.8:定价不变,编程与智能体能力小幅提升, | 未提供 |

Gemini 3.1 Pro Preview
Google Deep Mind