GE

Gemini-2.5-Pro-Preview-05-06

推理大模型Gemini ProGemini 2.5

Gemini-2.5-Pro-Preview-05-06

发布时间: 2025-05-06更新于: 2025-05-08 10:59:541,506

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

1000K

中文支持

支持

推理能力

Gemini-2.5-Pro-Preview-05-06 是由 Google Deep Mind 发布的 AI 模型，发布时间为 2025-05-06，定位为推理大模型，上下文长度为 1000K，采用不开源许可，在 MATH-500 上取得 98.80 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Gemini-2.5-Pro-Preview-05-06

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

1000K tokens

最大输出长度

64K tokens

模型类型

推理大模型

输入/输出模态

文本、图像 → 暂无数据

发布时间

2025-05-06

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Gemini-2.5-Pro-Preview-05-06

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://aistudio.google.com/prompts/new_chat

Gemini-2.5-Pro-Preview-05-06

官方介绍与博客

官方论文

Gemini 2.5 Pro Preview: even better coding performance

DataLearnerAI博客

暂无介绍博客

Gemini-2.5-Pro-Preview-05-06

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Gemini-2.5-Pro-Preview-05-06

评测结果

Gemini-2.5-Pro-Preview-05-06 当前已收录的代表性评测结果包括 MATH-500（1 / 44，得分 98.80）、AIME 2024（9 / 62，得分 92）、Aider-Polyglot（9 / 59，得分 76.90）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

83

61 / 179

21.60

99 / 159

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

54

10 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

77.10

34 / 120

SWE-bench Verified

63.20

73 / 108

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

98.80

1 / 44

92

9 / 62

83

51 / 106

10.30

25 / 60

FrontierMath - Tier 4

2.10

56 / 80

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

79.60

13 / 28

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

76.90

9 / 59

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Gemini-2.5-Pro-Preview-05-06

发布机构

Google Deep Mind

查看发布机构详情

Gemini-2.5-Pro-Preview-05-06

模型解读

Gemini 2.5 Pro是谷歌在2025年3月25日发布的第一个Gemini 2.5系列模型，2025年5月6日，Google发布了一个Gemini 2.5 Pro的更新版本，这个版本的模型在编程水平上大幅提升，但是业界评测其它方面的水平似乎略有下降。

作为谷歌AI技术的最新成果，Gemini 2.5 Pro在编程、推理和多模态理解方面取得了显著进展。本文将详细介绍其关键特性、性能评估、应用案例以及如何开始使用。

背景与更新概览

Gemini 2.5 Pro是谷歌DeepMind开发的先进大语言模型（LLM），继Gemini 1.0、1.5和2.0之后推出。2025年3月25日，谷歌首次发布Gemini 2.5 Pro实验版，强调其强大的推理能力和1百万token的上下文窗口。5月6日，谷歌提前发布了更新版本（I/O版），主要针对编程能力进行了优化，特别是在前端和UI开发方面。

此次更新原计划在Google I/O开发者大会上发布，但由于开发者对Gemini 2.5 Pro的热情，谷歌决定提前推出。该版本在WebDev Arena排行榜上超越前版147个Elo点，成为业界领先的编程模型。

关键特性与改进

1. 卓越的编程能力

Gemini 2.5 Pro在编程领域的表现尤为突出，尤其是在以下方面：

前端与UI开发：该模型在 WebDev Arena排行榜上排名第一，能够生成美观且功能强大的Web应用。它可以从设计文件中提取样式属性（如颜色、字体、边距）并生成相应的CSS代码。
代码转换与编辑：支持复杂的代码重构和代理工作流开发。例如，Cognition团队表示，该模型首次解决了涉及大型后端重构的评估任务，表现出“资深开发者”的判断力。
Vibe Coding：这一创新功能允许用户通过自然语言提示创建应用，无需编程经验。例如， HackerNoon 报道，一位开发者在一小时内使用vibe coding创建了一个复古游戏。

2. 领先的视频理解

Gemini 2.5 Pro在视频理解方面达到业界领先水平，在VideoMME基准测试中得分84.8%。它可以将视频内容转化为可执行代码，例如通过 Google AI Studio 的“Video to Learning App”功能，从YouTube视频生成交互式学习应用。

3. 超大上下文长度

该模型支持最大1,048,576个输入token和65,535个输出token的上下文长度，远超竞争对手（如OpenAI的o3-mini和Claude 3.7 Sonnet的200,000 token限制）。这使其能够处理大型代码库、长文档或复杂多模态输入。

4. 先进的推理能力

Gemini 2.5 Pro被谷歌称为“最先进的推理模型”，能够通过“思考”过程分析问题并提供准确答案。它在科学、数学和编程基准测试中表现优异，具体见下文性能评估。

性能评估

Gemini 2.5 Pro在多项基准测试中展现了强大实力，以下是其关键评估结果：

类别	基准测试	得分
推理与知识	Humanity's Last Exam（无工具）	17.8%
科学	GPQA diamond（单次尝试）	83.0%
数学	AIME 2025（单次尝试）	83.0%
代码生成	LiveCodeBench v5（单次尝试）	75.6%
代码编辑	Aider Polyglot（整体/差异）	76.5% / 72.7%
代理编码	SWE-bench Verified	63.2%
事实准确性	SimpleQA	50.8%
视觉推理	MMMU（单次尝试）	79.6%
图像理解	Vibe-Eval（Reka）	65.6%
视频理解	Video-MME	84.8%
长上下文	MRCR（128k平均/1M点）	93.0% / 82.9%
多语言	Global MMLU（Lite）	88.6%

分析：

优势：在科学（GPQA）、数学（AIME 2025）、编程（LiveCodeBench、SWE-bench）和视频理解（Video-MME）方面表现突出。
局限：事实准确性（SimpleQA得分50.8%）相对较低，可能在某些需要高事实性的任务中表现一般。
不确定性：业界评测提到其他方面可能略有下降，但具体数据尚未公开，可能与优化重点转向编程有关。

真实应用案例

Gemini 2.5 Pro已在多个场景中得到验证：

Replit：Replit总裁Michele Catasta表示：“我们发现Gemini 2.5 Pro在‘能力与延迟’比率上是最好的前沿模型。我期待在Replit Agent上使用它来处理需要高可靠性的延迟敏感任务。” (Google Developers Blog)
Cognition：Cognition创始团队成员Silas Alberti称：“更新后的Gemini 2.5 Pro在我们的初级开发者评估中表现出色。它是第一个解决我们一个涉及大型后端重构的评估的模型。感觉就像一个更资深的开发者，因为它能够做出正确的判断并选择好的抽象。” (Google Developers Blog)
游戏开发：一位开发者通过vibe coding在一小时内创建了一个复古游戏，展示了该模型的易用性 (HackerNoon)。
合作项目：Gemini 2.5 Pro驱动了Cursor的代码代理，并支持与Cognition和Replit的合作，推动代理编程的前沿 (Google Developers Blog)。

如何开始使用

开发者：通过 Google AI Studio 或Vertex AI访问Gemini 2.5 Pro。现有用户无需操作，系统已自动更新至5月6日版本。
非开发者：通过 Gemini应用的Canvas功能使用vibe coding，创建交互式Web应用。
实验版本：免费提供，但速率限制较低，适合测试和学习。

定价

Gemini 2.5 Pro的定价根据输入长度有所不同：

≤200,000 token：输入$1.25/百万token，输出$10.00/百万token。
>200,000 token：输入$2.50/百万token，输出$15.00/百万token。

相比Gemini 2.0 Pro，该模型成本较高，但其性能提升和超大上下文窗口为开发者提供了更高价值 (TechCrunch)。

结论

Gemini 2.5 Pro的更新版本在编程、视频理解和长上下文处理方面展现了卓越能力，尤其适合开发者构建复杂应用和非开发者通过vibe coding实现创意。尽管业界评测可能指出其他方面性能略有下降，但其整体实力使其成为2025年AI领域的里程碑。我们期待谷歌在未来进一步优化该模型，拓展其应用场景。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码