Google发布Gemini 2.0 Pro:MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1,最高上下文长度支持200万tokens!开发者每天免费50次请求!

标签:#Gemini##Gemini2.0##Gemini2.0Flash##Gemini2.0Pro# 时间:2025/02/06 19:18:02 作者:小木

2025年2月5日,Google官方宣布Gemini 2.0 Pro版本上线,Gemini系列是谷歌最新一代大模型的品牌名称。Google最早在2024年12月中旬发布了Gemini 2.0系列的第一个模型Gemini 2.0 Flash,当时试用的人都普遍反应这个模型速度又快,结果友好,让Google摆脱了此前大模型很落后的印象。今天,Gemini 2.0 Pro上线,其能力更强。


[TOC]

一、Google Gemini系列模型回顾

虽然Google最新的模型很不错,但是Google大模型系列的产品有点混乱,我们先来回顾一下Gemini模型的发布情况。

2023年12月份,Google发布了Bard模型的升级版本Gemini系列,当时发布的时候仅包含Gemini Ultra、Gemini Pro和Gemini Nano,参数规模依次递减,其中Nano系列是移动端的模型(这部分的信息可以参考此前DataLearnerAI的博客介绍:谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型)。

此后,Google陆续发布了1.5系列的模型,并引入了Gemini 1.5 Flash这个新的系列。

2024年12月,Google发布了Gemini 2.0 Flash的实验版本,后缀是Experimental,这个版本的模型发布让大家对Google的大模型有了很大的改观,原因是这个模型的代码生成能力非常好,效果与GPT-4o系列几乎不相上下,同时因为其速度快,开发者每天有免费使用的额度,被广泛使用。具体参考DataLearnerAI的博客:Google发布第二代Gemini大语言模型,首个登场的Gemini 2 Flash Experimental,评测结果显示其能力已经超越上一代的Gemini 1.5 Pro!

今天,Google又发布了3个2.0版本的Gemini系列模型,就是本文要介绍的。

让我们总结一下这个混乱的模型发布节奏:

Gemini 1.0 Series (2023年12月发布):
  • Gemini Ultra
  • Gemini Pro
  • Gemini Nano
Gemini 1.5 Series (2024年5月发布):
  • Gemini 1.5 Pro
  • Gemini 1.5 Flash
Gemini 2.0 Flash Experimental(2024年12月发布):
  • Gemini 2.0 Flash Experimental
  • Gemini 2.0 Flash Thinking (Experimental)
Gemini 2.0 Series (2025年2月发布):
  • Gemini 2.0 Flash-Lite (Public Preview)
  • Gemini 2.0 Flash (GA - Generally Available)
  • Gemini 2.0 Pro (Experimental)

今天,Google发布了Gemini 2.0 Flash的正式版本,同时也可以发布了一个更加小巧便宜的Gemini 2.0 Flash-Lite以及更大规模更强的Gemini 2.0 Pro。

Gemini 2.0 Flash去掉了实验标签也意味着它正式发布。而官方也没有给这个模型更多的介绍,意味着去除这个标签本身可能也没有更大的提升。因此,今天的主角是Gemini 2.0 Flash-Lite和Gemini 2.0 Pro Experimental。

Gemini 2.0 Flash-Lite简介:更快的Gemini 1.5 Flash平替模型

从命名可以看到,Google的这个模型是Gemini 2.0 Flash的一个小规模参数的版本,它更快,但是比Gemini 2.0 Flash效果略差,好于上一代的Gemini 1.5 Flash。

而从官方的对比来看,我们又一次看到Google产品的混乱。

在Google官方的博客中,他们用Gemini 2.0 Flash-Lite对比上一代的Gemini 1.5 Flash。官方说,这个模型的目标是希望持续改进大模型的能力,但是保持价格不表。因此,与Gemini 1.5 Flash相比,这个模型的价格保持不变,但是各方面都有提升。

CAPABILITY BENCHMARK 1.5 Flash 2.0 Flash-Lite Preview
General MMLU-Pro 67.3% 71.6%
Code LiveCodeBench v5 30.7% 28.9%
Bird-SQL Dev 45.6% 57.4%
Reasoning GPQA Diamond 51.0% 51.5%
Factuality SimpleQA 8.6% 21.7%
FACTS Grounding 82.9% 83.6%
Multilingual Global MMLU Lite 73.7% 78.2%
Math MATH 77.9% 86.8%
HiddenMath 47.2% 55.3%
Long-context MRCR 1M 71.9% 58.0%
Image MMMU 62.3% 68.0%
Audio CoVoST2 21 lang 37.4% 38.4%
Video EgoSchema test 66.8% 67.2%

上表可以看出两个模型的评测结果对比。可以看到,大部分的评测基准上,新模型都有提升,且幅度客观。有2个指标下降。但是谷歌官方的价格不变,结尾加了Lite,很难让人理解这个模型的定位。但是同时意味着,Gemini 2.0 Flash相比较上一代产品价格上涨了

如下表所示:

Model Text/Image/Video Inputs Audio Inputs Text Outputs Context Caching*
Gemini 2.0 Flash $0.10 $0.70** $0.40 Text/Image/Video $0.025
Audio $0.175
Gemini 2.0 Flash-Lite $0.075 $0.075 $0.30 $0.01875
Gemini 1.5 Flash (Provided for reference) $0.075 (Prompts <= 128k) $0.075 (Prompts <= 128k) $0.30 (Prompts <= 128k) $0.01875 (Prompts <= 128k)
Gemini 1.5 Flash (Provided for reference) $0.15 (Prompts > 128k) $0.15 (Prompts > 128k) $0.60 (Prompts > 128k) $0.0375 (Prompts > 128k)

从这个图可以看到,Gemini 1.5 Flash还根据上下文长度不同,定价有区分。而Gemini 2.0系列已经取消这个价格差异。但是同系列的Gemini 2.0 Flash价格略有上涨。

Gemini 2.0 Flash-Lite模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini-2_0-flash-lite

Gemini 2.0 Pro简介:支持200万tokens上下文的大模型

这是目前Google发布的在编码性能和处理复杂提示方面表现最出色的模型。它具有更强的理解和推理能力,可以分析和理解大量信息。此外,它还支持调用Google搜索和代码执行等工具。

Gemini 2.0 Pro是一个多模态的大模型,其中输入最大支持200万token的超大上下文窗口,输出支持8K。应该是目前为止规模最大的一类了。这个模型训练的知识截止到2024年6月份。

这个模型相比较Google的其他模型也是效果显著:

CAPABILITY BENCHMARK 1.5 Flash 1.5 Pro 2.0 Flash-Lite Preview 2.0 Flash GA 2.0 Pro Experimental
General MMLU-Pro 67.3% 75.8% 71.6% 77.6% 79.1%
Code LiveCodeBench v5 30.7% 34.2% 28.9% 34.5% 36.0%
Bird-SQL Dev 45.6% 54.4% 57.4% 58.7% 59.3%
Reasoning GPQA Diamond 51.0% 59.1% 51.5% 60.1% 64.7%
Factuality SimpleQA 8.6% 24.9% 21.7% 29.9% 44.3%
FACTS Grounding 82.9% 80.0% 83.6% 84.6% 82.8%
Multilingual Global MMLU Lite 73.7% 80.8% 78.2% 83.4% 86.5%
Math MATH 77.9% 86.5% 86.8% 90.9% 91.8%
HiddenMath 47.2% 52.0% 55.3% 63.5% 65.2%
Long-context MRCR 1M 71.9% 82.6% 58.0% 70.5% 74.7%
Image MMMU 62.3% 65.9% 68.0% 71.7% 72.7%
Audio CoVoST2 21 lang 37.4% 40.1% 38.4% 39.0% 40.6%
Video EgoSchema test 66.8% 71.2% 67.2% 71.1% 71.9%

可以看到,在所有评测基准上,Gemini 2.0 Pro都是最强的。

就MMLU Pro得分来说(更难更有区分力的大模型综合评测基准,MMLU的升级版本,MMLU Pro具体信息参考:https://www.datalearner.com/blog/1051734400735235 ),Gemini 2.0 Pro也是除了当前业界推理大模型o1和R1外最强的大模型了。也就是说,抛开两个推理大模型,这是当前业界最强的大模型。

Gemini 2.0 Pro在MMLU Pro的得分排行

数据来源DataLearnerAI:https://www.datalearner.com/ai-models/llm-benchmark-tests/16

官方给的Gemini 2.0 Pro的模型信息卡如下:


这意味着,当前开发者每天可以免费使用50次Gemini 2.0 Pro模型,相比较Gemini 2.0 Flash的1500次大幅降低。也意味着这个模型的成本可能远高于Gemini 2.0 Flash。

关于Gemini 2.0 Pro模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini_2_pro

总结与展望

Gemini 2.0系列模型的发布,标志着Google在AI领域的又一次重要进展。无论是开发者还是普通用户,都可以从Gemini 2.0中获益。Gemini系列无论是速度还是效果都可以称为业界最强模型之一,也让Google摆脱了在大模型领域的能力落后的标签。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送