DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogGemini-2.5-Pro-Preview-05-06
GE

Gemini-2.5-Pro-Preview-05-06

推理大模型

Gemini-2.5-Pro-Preview-05-06

Release date: 2025-05-06更新于: 2025-05-08 10:59:541,441
Live demoGitHubHugging FaceCompare
Parameters
Not disclosed
Context length
1000K
Chinese support
Supported
Reasoning ability

Gemini-2.5-Pro-Preview-05-06 is an AI model published by Google Deep Mind, released on 2025-05-06, for 推理大模型, and 1000K tokens context length, under the 不开源 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Gemini-2.5-Pro-Preview-05-06

Model basics

Reasoning traces
Supported
Thinking modes
Thinking modes not supported
Context length
1000K tokens
Max output length
65536 tokens
Model type
推理大模型
Release date
2025-05-06
Model file size
No data
MoE architecture
No
Total params / Active params
No data / N/A
Knowledge cutoff
No data
Gemini-2.5-Pro-Preview-05-06

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://aistudio.google.com/prompts/new_chat
Gemini-2.5-Pro-Preview-05-06

Official resources

Paper
Gemini 2.5 Pro Preview: even better coding performance
DataLearnerAI blog
No blog post yet
Gemini-2.5-Pro-Preview-05-06

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$1.25$10
Image$1.25--
Gemini-2.5-Pro-Preview-05-06

Benchmark Results

Gemini-2.5-Pro-Preview-05-06 currently shows benchmark results led by MATH-500 (1 / 44, score 98.80), AIME 2024 (9 / 62, score 92), SimpleQA (10 / 45, score 54). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

Thinking
All modesNormalThinking
Thinking mode details (1)
All thinking modesDefault (Thinking Mode)

多模态理解

1 evaluations
Benchmark / mode
Score
Rank/total
MMMU
Thinking Mode
79.60
13 / 28
View benchmark analysisCompare with other models
Gemini-2.5-Pro-Preview-05-06

Publisher

Google Deep Mind
Google Deep Mind
View publisher details
Gemini-2.5-Pro-Preview-05-06

Model Overview

Gemini 2.5 Pro是谷歌在2025年3月25日发布的第一个Gemini 2.5系列模型,2025年5月6日,Google发布了一个Gemini 2.5 Pro的更新版本,这个版本的模型在编程水平上大幅提升,但是业界评测其它方面的水平似乎略有下降。

作为谷歌AI技术的最新成果,Gemini 2.5 Pro在编程、推理和多模态理解方面取得了显著进展。本文将详细介绍其关键特性、性能评估、应用案例以及如何开始使用。

背景与更新概览

Gemini 2.5 Pro是谷歌DeepMind开发的先进大语言模型(LLM),继Gemini 1.0、1.5和2.0之后推出。2025年3月25日,谷歌首次发布Gemini 2.5 Pro实验版,强调其强大的推理能力和1百万token的上下文窗口。5月6日,谷歌提前发布了更新版本(I/O版),主要针对编程能力进行了优化,特别是在前端和UI开发方面。

此次更新原计划在Google I/O开发者大会上发布,但由于开发者对Gemini 2.5 Pro的热情,谷歌决定提前推出。该版本在WebDev Arena排行榜上超越前版147个Elo点,成为业界领先的编程模型。

关键特性与改进

1. 卓越的编程能力

Gemini 2.5 Pro在编程领域的表现尤为突出,尤其是在以下方面:

  • 前端与UI开发:该模型在 WebDev Arena排行榜 上排名第一,能够生成美观且功能强大的Web应用。它可以从设计文件中提取样式属性(如颜色、字体、边距)并生成相应的CSS代码。
  • 代码转换与编辑:支持复杂的代码重构和代理工作流开发。例如,Cognition团队表示,该模型首次解决了涉及大型后端重构的评估任务,表现出“资深开发者”的判断力。
  • Vibe Coding:这一创新功能允许用户通过自然语言提示创建应用,无需编程经验。例如, HackerNoon 报道,一位开发者在一小时内使用vibe coding创建了一个复古游戏。

2. 领先的视频理解

Gemini 2.5 Pro在视频理解方面达到业界领先水平,在VideoMME基准测试中得分84.8%。它可以将视频内容转化为可执行代码,例如通过 Google AI Studio 的“Video to Learning App”功能,从YouTube视频生成交互式学习应用。

3. 超大上下文长度

该模型支持最大1,048,576个输入token和65,535个输出token的上下文长度,远超竞争对手(如OpenAI的o3-mini和Claude 3.7 Sonnet的200,000 token限制)。这使其能够处理大型代码库、长文档或复杂多模态输入。

4. 先进的推理能力

Gemini 2.5 Pro被谷歌称为“最先进的推理模型”,能够通过“思考”过程分析问题并提供准确答案。它在科学、数学和编程基准测试中表现优异,具体见下文性能评估。

性能评估

Gemini 2.5 Pro在多项基准测试中展现了强大实力,以下是其关键评估结果:

类别基准测试得分
推理与知识Humanity's Last Exam(无工具)17.8%
科学GPQA diamond(单次尝试)83.0%
数学AIME 2025(单次尝试)83.0%
代码生成LiveCodeBench v5(单次尝试)75.6%
代码编辑Aider Polyglot(整体/差异)76.5% / 72.7%
代理编码SWE-bench Verified63.2%
事实准确性SimpleQA50.8%
视觉推理MMMU(单次尝试)79.6%
图像理解Vibe-Eval(Reka)65.6%
视频理解Video-MME84.8%
长上下文MRCR(128k平均/1M点)93.0% / 82.9%
多语言Global MMLU(Lite)88.6%

分析:

  • 优势:在科学(GPQA)、数学(AIME 2025)、编程(LiveCodeBench、SWE-bench)和视频理解(Video-MME)方面表现突出。
  • 局限:事实准确性(SimpleQA得分50.8%)相对较低,可能在某些需要高事实性的任务中表现一般。
  • 不确定性:业界评测提到其他方面可能略有下降,但具体数据尚未公开,可能与优化重点转向编程有关。

真实应用案例

Gemini 2.5 Pro已在多个场景中得到验证:

  • Replit:Replit总裁Michele Catasta表示:“我们发现Gemini 2.5 Pro在‘能力与延迟’比率上是最好的前沿模型。我期待在Replit Agent上使用它来处理需要高可靠性的延迟敏感任务。” (Google Developers Blog)
  • Cognition:Cognition创始团队成员Silas Alberti称:“更新后的Gemini 2.5 Pro在我们的初级开发者评估中表现出色。它是第一个解决我们一个涉及大型后端重构的评估的模型。感觉就像一个更资深的开发者,因为它能够做出正确的判断并选择好的抽象。” (Google Developers Blog)
  • 游戏开发:一位开发者通过vibe coding在一小时内创建了一个复古游戏,展示了该模型的易用性 (HackerNoon)。
  • 合作项目:Gemini 2.5 Pro驱动了Cursor的代码代理,并支持与Cognition和Replit的合作,推动代理编程的前沿 (Google Developers Blog)。

如何开始使用

  • 开发者:通过 Google AI Studio 或Vertex AI访问Gemini 2.5 Pro。现有用户无需操作,系统已自动更新至5月6日版本。
  • 非开发者:通过 Gemini应用 的Canvas功能使用vibe coding,创建交互式Web应用。
  • 实验版本:免费提供,但速率限制较低,适合测试和学习。

定价

Gemini 2.5 Pro的定价根据输入长度有所不同:

  • ≤200,000 token:输入$1.25/百万token,输出$10.00/百万token。
  • >200,000 token:输入$2.50/百万token,输出$15.00/百万token。

相比Gemini 2.0 Pro,该模型成本较高,但其性能提升和超大上下文窗口为开发者提供了更高价值 (TechCrunch)。

结论

Gemini 2.5 Pro的更新版本在编程、视频理解和长上下文处理方面展现了卓越能力,尤其适合开发者构建复杂应用和非开发者通过vibe coding实现创意。尽管业界评测可能指出其他方面性能略有下降,但其整体实力使其成为2025年AI领域的里程碑。我们期待谷歌在未来进一步优化该模型,拓展其应用场景。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码