Gemini-2.5-Pro-Preview-05-06
发布时间: 2025-05-06
支持
1000K tokens
65536 tokens
推理大模型
2025-05-06
输入支持
输入支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
Gemini 2.5 Pro是谷歌在2025年3月25日发布的第一个Gemini 2.5系列模型,2025年5月6日,Google发布了一个Gemini 2.5 Pro的更新版本,这个版本的模型在编程水平上大幅提升,但是业界评测其它方面的水平似乎略有下降。
作为谷歌AI技术的最新成果,Gemini 2.5 Pro在编程、推理和多模态理解方面取得了显著进展。本文将详细介绍其关键特性、性能评估、应用案例以及如何开始使用。
Gemini 2.5 Pro是谷歌DeepMind开发的先进大语言模型(LLM),继Gemini 1.0、1.5和2.0之后推出。2025年3月25日,谷歌首次发布Gemini 2.5 Pro实验版,强调其强大的推理能力和1百万token的上下文窗口。5月6日,谷歌提前发布了更新版本(I/O版),主要针对编程能力进行了优化,特别是在前端和UI开发方面。
此次更新原计划在Google I/O开发者大会上发布,但由于开发者对Gemini 2.5 Pro的热情,谷歌决定提前推出。该版本在WebDev Arena排行榜上超越前版147个Elo点,成为业界领先的编程模型。
Gemini 2.5 Pro在编程领域的表现尤为突出,尤其是在以下方面:
Gemini 2.5 Pro在视频理解方面达到业界领先水平,在VideoMME基准测试中得分84.8%。它可以将视频内容转化为可执行代码,例如通过 Google AI Studio 的“Video to Learning App”功能,从YouTube视频生成交互式学习应用。
该模型支持最大1,048,576个输入token和65,535个输出token的上下文长度,远超竞争对手(如OpenAI的o3-mini和Claude 3.7 Sonnet的200,000 token限制)。这使其能够处理大型代码库、长文档或复杂多模态输入。
Gemini 2.5 Pro被谷歌称为“最先进的推理模型”,能够通过“思考”过程分析问题并提供准确答案。它在科学、数学和编程基准测试中表现优异,具体见下文性能评估。
Gemini 2.5 Pro在多项基准测试中展现了强大实力,以下是其关键评估结果:
类别 | 基准测试 | 得分 |
---|---|---|
推理与知识 | Humanity's Last Exam(无工具) | 17.8% |
科学 | GPQA diamond(单次尝试) | 83.0% |
数学 | AIME 2025(单次尝试) | 83.0% |
代码生成 | LiveCodeBench v5(单次尝试) | 75.6% |
代码编辑 | Aider Polyglot(整体/差异) | 76.5% / 72.7% |
代理编码 | SWE-bench Verified | 63.2% |
事实准确性 | SimpleQA | 50.8% |
视觉推理 | MMMU(单次尝试) | 79.6% |
图像理解 | Vibe-Eval(Reka) | 65.6% |
视频理解 | Video-MME | 84.8% |
长上下文 | MRCR(128k平均/1M点) | 93.0% / 82.9% |
多语言 | Global MMLU(Lite) | 88.6% |
分析:
Gemini 2.5 Pro已在多个场景中得到验证:
Gemini 2.5 Pro的定价根据输入长度有所不同:
相比Gemini 2.0 Pro,该模型成本较高,但其性能提升和超大上下文窗口为开发者提供了更高价值 (TechCrunch)。
Gemini 2.5 Pro的更新版本在编程、视频理解和长上下文处理方面展现了卓越能力,尤其适合开发者构建复杂应用和非开发者通过vibe coding实现创意。尽管业界评测可能指出其他方面性能略有下降,但其整体实力使其成为2025年AI领域的里程碑。我们期待谷歌在未来进一步优化该模型,拓展其应用场景。
关注DataLearnerAI微信公众号,接受最新大模型资讯