Google发布第二代Gemini大语言模型,首个登场的Gemini 2 Flash Experimental,评测结果显示其能力已经超越上一代的Gemini 1.5 Pro!
Gemini是谷歌发布的一系列大模型的名称,是谷歌前期大模型Bard产品的替代品。从Gemini 1.0发布开始,每一次发布都获得了不错的反响。今天,Google发布了最新一代的Gemini 2.0模型,首个产品是其参数规模较小的Gemini 2.0 Flash,它的推理速度是Gemini 1.5 Pro的2倍,但是各项评测结果上的表现却超过了Gemini 1.5 Pro。该模型完全免费提供给大家使用。

Gemini 2.0 Flash Experimental简介
Gemini 2.0 Flash Experimental是谷歌发布的Gemini 2.0系列中的第一个模型,名字带着Experimental也意味着当前是测试版模型,并非正式版本。但是,Google官方宣传2.0系列模型相比前面的模型有巨大的性能提升,它可以是实现“智能体的体验”,专注于增强AI完成任务的能力。
Google Gemini Flash系列模型简介
在具体介绍Gemini 2.0 Flash模型之前,我们先对这个Gemini Flash系列模型简单介绍一下,这样大家更能理解这个模型的情况。
Gemini Flash系列并不是在最早的Gemini系列模型中。2023年12月份,Google发布了Bard模型的升级版本Gemini系列,当时发布的时候仅包含Gemini Ultra、Gemini Pro和Gemini Nano,参数规模依次递减,其中Nano系列是移动端的模型(这部分的信息可以参考此前DataLearnerAI的博客介绍:谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型)。在2024年5月份,Google发布了Gemini 1.5系列,同时发布了第一个Gemini Flash模型,即Gemini 1.5 Flash。其定位是性能略低于Gemini 1.5 Pro,但是速度更快。2024年9月份,Google发布了Gemini 1.5 Flash更新版,大版本号未变,但是能力增强。同时,将5月份发布的Gemini 1.5 Flash更名为Gemini 1.5 Flash-001,9月份发布的Gemini 1.5 Flash-002。
时隔三个月之后的今天,Google发布了Gemini 2 Flash Experimental模型,该模型能力再次加强!Gemini 2 Flash的设计目标是比前代模型更强大、更快速,为AI模型性能设定新的基准。
Gemini 2 Flash Experimental关键特性
本次发布的Gemini 2.0 Flash Experimental是一个实验性质的模型,因此,版本号带了Experimental。其主要特性总结如下:
- 性能与速度: Gemini 2.0 Flash Experimental的速度是Gemini 1.5 Pro的2倍,同时在多个关键基准测试中超过了Gemini 1.5 Pro。
- 超长上下文: Gemini 2 Flash Experimental最高支持100万Tokens的超长上下文,单次最高支持最多8K的输出!这个比很多模型都高!
- 多模态能力:
- 输入: 支持文本、图像、视频和音频。
- 输出: 可生成文本和音频,提供8种高质量语音,涵盖多种语言,并可对语音进行详细定制(如语速、风格、口音)。此外,它还支持与文本同步生成和编辑图像,支持社交媒体内容或教程等应用中的对话式、多轮编辑。
- 原生工具集成:
该模型原生支持谷歌搜索等工具,以提供更准确、实时的答案,并支持代码执行,减少了在应用中单独调用功能的需求。它还支持并行搜索操作,以提高信息的准确性和检索效率。 - 多模态实时API: 该API支持实时音频和视频流,能够实现自然对话机制的动态应用,包括语音活动检测和打断正在进行的回应。
- 代理架构:这个就是指Gemini 2 Flash在AI Agent上的应用能力,它旨在支持能够利用记忆、推理和规划来执行任务的AI代理,从而为更复杂、互动性的AI应用开辟了新的可能性。
从谷歌官方的介绍看,Gemini 2.0 Flash不仅仅是一个模型升级,更代表了AI智能体技术的范式转变。它标志着大模型从简单的内容生成向真正理解、规划和执行复杂任务的智能系统的转变。
Gemini 2.0 Flash Experimental 展现了下一代AI代理(AI Agent)的强大潜力,其核心能力在于实现了多模态交互、实时响应和原生工具集成的有机融合。这一模型不仅提升了AI系统在复杂场景中的执行能力,还为开发者创造了全新的可能性。
Gemini 2 Flash Experimental的评测结果
Gemini 2.0 Flash Experimental模型在评测基准上提升很大,相比较此前的模型,其对比结果如下:
功能 | 基准 | 描述 | Gemini 1.5 Flash 002 | Gemini 1.5 Pro 002 | Gemini 2.0 Flash Experimental |
---|---|---|---|---|---|
通用能力 | MMLU-Pro | 增强版本的MMLU数据集,包含多个学科的高难度任务问题 | 67.3% | 75.8% | 76.4% |
代码生成 | Natural2Code | 跨Python、Java、C++、JS、Go的代码生成。使用HumanEval风格的数据集测试,未在网络上公开 | 79.8% | 85.4% | 92.9% |
Bird-SQL (Dev) | 评估将自然语言问题转换为可执行SQL的基准 | 45.6% | 54.4% | 56.9% | |
LiveCodeBench (代码生成) | 用Python进行代码生成。此基准涵盖了更多近期示例:2024年6月1日至2024年10月5日 | 30.0% | 34.3% | 35.1% | |
事实性 | FACTS Grounding | 能够基于文档和多样化的用户请求提供事实性正确的回答。基于内部数据集测试 | 82.9% | 80.0% | 83.6% |
数学 | MATH | 挑战性数学问题(包括代数、几何、预备微积分等) | 77.9% | 86.5% | 89.7% |
HiddenMath | 比赛级别的数学问题,使用类似AIME/AMC的隐藏数据集测试,由专家制作且未在网络上公开 | 47.2% | 52.0% | 63.0% | |
推理 | GPQA (diamond) | 由生物学、物理学和化学领域专家撰写的挑战性问题数据集 | 51.0% | 59.1% | 62.1% |
长上下文理解 | MRCR (1M) | 新型的、诊断性的长上下文理解评估 | 71.9% | 82.6% | 69.2% |
图像 | MMMU | 多学科大学水平的多模态理解和推理问题 | 62.3% | 65.9% | 70.7% |
Vibe-Eval (Reka) | 在聊天模型中对日常挑战性场景进行视觉理解。使用Gemini Flash模型作为评估器测试 | 48.9% | 53.9% | 56.3% | |
音频 | CoVoST2 (21种语言) | 自动语音翻译(BLEU评分) | 37.4 | 40.1 | 39.2 |
视频 | EgoSchema (测试) | 跨多个领域的视频分析 | 66.8% | 71.2% | 71.5% |
Gemini 2 Flash Experimental模型在代码生成和数学能力上的具有显著突破,即使相比较Gemini 1.5 Pro来说,提升也很明显,特别的:
- Natural2Code测试从85.4%提升到92.9%,增幅高达7.5个百分点
- 在HiddenMath隐藏数学问题集上,性能从52.0%跃升至63.0%,提升11个百分点
这两个指标尤其重要,因为它们体现了模型在高复杂度、高专业性任务上的实质性进步。特别是代码生成和高难度数学问题的显著提升,意味着Gemini 2.0 Flash Experimental在处理专业、技术性极强的任务上已经达到了新的水平。这也可能是Google宣称该模型可以AI Agent发展的底气。
Gemini 2 Flash Experimental不开源但是免费使用
尽管Google没有开源Gemini 2 Flash模型,但是在Experimental阶段,它却提供给大家免费使用。在Google官方的Gemini网站上目前大家已经可以体验,而对于开发者Google也提供了的免费的API接口。
对于开发者提供的Gemini 2.0 Flash Experimental接口有如下限制:
- 每分钟10次请求
- 每分钟最多400万个tokens
- 每天最多1500次请求
虽然不多,但也不错了。关于Gemini 2.0 Flash Experimental的详细信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini_2_flash_exp
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
