Google 在模型评估中提供了多项基准测试结果。Gemini 3.1 Pro 在以下测试中得分高于 Gemini 3 Pro(括号内为 Gemini 3 Pro 对应分数,所有结果基于 2026 年 2 月数据,使用指定思考模式或无工具设置):
Humanity's Last Exam(学术推理,全集,文本+多模态,无工具):44.4%(37.5%) ARC-AGI-2(抽象推理谜题,ARC Prize Verified):77.1%(31.1%) GPQA Diamond(科学知识,无工具):94.3%(91.9%) Terminal-Bench 2.0(代理终端编码,Terminus-2 harness):68.5%(56.9%) SWE-Bench Verified(代理编码,单次尝试):80.6%(76.2%) LiveCodeBench Pro(竞争性编程,Elo 分数):2887(2439) MMMLU(多语言问答):92.6%(91.8%) MRCR v2(长上下文,128k 平均):84.9%(77.0%)
在多模态理解(MMMU-Pro,无工具)上得分为 80.5%(Gemini 3 Pro 为 81.0%)。在代理工具使用和长上下文等类别中,多数指标也有相应变化。Google 同时提供了与其他模型(如 Claude Sonnet 4.6、Opus 4.6 及 GPT 系列)的比较数据。 模型卡指出,Gemini 3.1 Pro 在前沿安全框架评估中未达到关键能力水平(CCL)警戒阈值,包括 CBRN、cyber 等风险领域。安全评估显示,与 Gemini 3 Pro 相比,部分指标有小幅变化。