Gemini-2.5-Pro-Preview-05-06
Gemini-2.5-Pro-Preview-05-06 is an AI model published by Google Deep Mind, released on 2025-05-06, for 推理大模型, and 1000K tokens context length, under the 不开源 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Text | $1.25 | $10 |
| Image | $1.25 | -- |
Gemini-2.5-Pro-Preview-05-06 currently shows benchmark results led by MATH-500 (1 / 44, score 98.80), AIME 2024 (9 / 62, score 92), SimpleQA (10 / 45, score 54). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
Gemini 2.5 Pro是谷歌在2025年3月25日发布的第一个Gemini 2.5系列模型,2025年5月6日,Google发布了一个Gemini 2.5 Pro的更新版本,这个版本的模型在编程水平上大幅提升,但是业界评测其它方面的水平似乎略有下降。
作为谷歌AI技术的最新成果,Gemini 2.5 Pro在编程、推理和多模态理解方面取得了显著进展。本文将详细介绍其关键特性、性能评估、应用案例以及如何开始使用。
Gemini 2.5 Pro是谷歌DeepMind开发的先进大语言模型(LLM),继Gemini 1.0、1.5和2.0之后推出。2025年3月25日,谷歌首次发布Gemini 2.5 Pro实验版,强调其强大的推理能力和1百万token的上下文窗口。5月6日,谷歌提前发布了更新版本(I/O版),主要针对编程能力进行了优化,特别是在前端和UI开发方面。
此次更新原计划在Google I/O开发者大会上发布,但由于开发者对Gemini 2.5 Pro的热情,谷歌决定提前推出。该版本在WebDev Arena排行榜上超越前版147个Elo点,成为业界领先的编程模型。
Gemini 2.5 Pro在编程领域的表现尤为突出,尤其是在以下方面:
Gemini 2.5 Pro在视频理解方面达到业界领先水平,在VideoMME基准测试中得分84.8%。它可以将视频内容转化为可执行代码,例如通过 Google AI Studio 的“Video to Learning App”功能,从YouTube视频生成交互式学习应用。
该模型支持最大1,048,576个输入token和65,535个输出token的上下文长度,远超竞争对手(如OpenAI的o3-mini和Claude 3.7 Sonnet的200,000 token限制)。这使其能够处理大型代码库、长文档或复杂多模态输入。
Gemini 2.5 Pro被谷歌称为“最先进的推理模型”,能够通过“思考”过程分析问题并提供准确答案。它在科学、数学和编程基准测试中表现优异,具体见下文性能评估。
Gemini 2.5 Pro在多项基准测试中展现了强大实力,以下是其关键评估结果:
| 类别 | 基准测试 | 得分 |
|---|---|---|
| 推理与知识 | Humanity's Last Exam(无工具) | 17.8% |
| 科学 | GPQA diamond(单次尝试) | 83.0% |
| 数学 | AIME 2025(单次尝试) | 83.0% |
| 代码生成 | LiveCodeBench v5(单次尝试) | 75.6% |
| 代码编辑 | Aider Polyglot(整体/差异) | 76.5% / 72.7% |
| 代理编码 | SWE-bench Verified | 63.2% |
| 事实准确性 | SimpleQA | 50.8% |
| 视觉推理 | MMMU(单次尝试) | 79.6% |
| 图像理解 | Vibe-Eval(Reka) | 65.6% |
| 视频理解 | Video-MME | 84.8% |
| 长上下文 | MRCR(128k平均/1M点) | 93.0% / 82.9% |
| 多语言 | Global MMLU(Lite) | 88.6% |
分析:
Gemini 2.5 Pro已在多个场景中得到验证:
Gemini 2.5 Pro的定价根据输入长度有所不同:
相比Gemini 2.0 Pro,该模型成本较高,但其性能提升和超大上下文窗口为开发者提供了更高价值 (TechCrunch)。
Gemini 2.5 Pro的更新版本在编程、视频理解和长上下文处理方面展现了卓越能力,尤其适合开发者构建复杂应用和非开发者通过vibe coding实现创意。尽管业界评测可能指出其他方面性能略有下降,但其整体实力使其成为2025年AI领域的里程碑。我们期待谷歌在未来进一步优化该模型,拓展其应用场景。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
