Google发布第二代Gemini大语言模型,首个登场的Gemini 2 Flash Experimental,评测结果显示其能力已经超越上一代的Gemini 1.5 Pro!

标签:#Gemini2##Gemini2.0Flash##Gemini2Flash# 时间:2024/12/12 22:23:36 作者:小木

Gemini是谷歌发布的一系列大模型的名称,是谷歌前期大模型Bard产品的替代品。从Gemini 1.0发布开始,每一次发布都获得了不错的反响。今天,Google发布了最新一代的Gemini 2.0模型,首个产品是其参数规模较小的Gemini 2.0 Flash,它的推理速度是Gemini 1.5 Pro的2倍,但是各项评测结果上的表现却超过了Gemini 1.5 Pro。该模型完全免费提供给大家使用。



[TOC]

Gemini 2.0 Flash Experimental简介

Gemini 2.0 Flash Experimental是谷歌发布的Gemini 2.0系列中的第一个模型,名字带着Experimental也意味着当前是测试版模型,并非正式版本。但是,Google官方宣传2.0系列模型相比前面的模型有巨大的性能提升,它可以是实现“智能体的体验”,专注于增强AI完成任务的能力。

Google Gemini Flash系列模型简介

在具体介绍Gemini 2.0 Flash模型之前,我们先对这个Gemini Flash系列模型简单介绍一下,这样大家更能理解这个模型的情况。

Gemini Flash系列并不是在最早的Gemini系列模型中。2023年12月份,Google发布了Bard模型的升级版本Gemini系列,当时发布的时候仅包含Gemini Ultra、Gemini Pro和Gemini Nano,参数规模依次递减,其中Nano系列是移动端的模型(这部分的信息可以参考此前DataLearnerAI的博客介绍:谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型)。在2024年5月份,Google发布了Gemini 1.5系列,同时发布了第一个Gemini Flash模型,即Gemini 1.5 Flash。其定位是性能略低于Gemini 1.5 Pro,但是速度更快。2024年9月份,Google发布了Gemini 1.5 Flash更新版,大版本号未变,但是能力增强。同时,将5月份发布的Gemini 1.5 Flash更名为Gemini 1.5 Flash-001,9月份发布的Gemini 1.5 Flash-002。

时隔三个月之后的今天,Google发布了Gemini 2 Flash Experimental模型,该模型能力再次加强!Gemini 2 Flash的设计目标是比前代模型更强大、更快速,为AI模型性能设定新的基准。

Gemini 2 Flash Experimental关键特性

本次发布的Gemini 2.0 Flash Experimental是一个实验性质的模型,因此,版本号带了Experimental。其主要特性总结如下:

  • 性能与速度: Gemini 2.0 Flash Experimental的速度是Gemini 1.5 Pro的2倍,同时在多个关键基准测试中超过了Gemini 1.5 Pro。
  • 超长上下文: Gemini 2 Flash Experimental最高支持100万Tokens的超长上下文,单次最高支持最多8K的输出!这个比很多模型都高!
  • 多模态能力:
    • 输入: 支持文本、图像、视频和音频。
    • 输出: 可生成文本和音频,提供8种高质量语音,涵盖多种语言,并可对语音进行详细定制(如语速、风格、口音)。此外,它还支持与文本同步生成和编辑图像,支持社交媒体内容或教程等应用中的对话式、多轮编辑。
  • 原生工具集成:
    该模型原生支持谷歌搜索等工具,以提供更准确、实时的答案,并支持代码执行,减少了在应用中单独调用功能的需求。它还支持并行搜索操作,以提高信息的准确性和检索效率。
  • 多模态实时API: 该API支持实时音频和视频流,能够实现自然对话机制的动态应用,包括语音活动检测和打断正在进行的回应。
  • 代理架构:这个就是指Gemini 2 Flash在AI Agent上的应用能力,它旨在支持能够利用记忆、推理和规划来执行任务的AI代理,从而为更复杂、互动性的AI应用开辟了新的可能性。

从谷歌官方的介绍看,Gemini 2.0 Flash不仅仅是一个模型升级,更代表了AI智能体技术的范式转变。它标志着大模型从简单的内容生成向真正理解、规划和执行复杂任务的智能系统的转变。

Gemini 2.0 Flash Experimental 展现了下一代AI代理(AI Agent)的强大潜力,其核心能力在于实现了多模态交互实时响应原生工具集成的有机融合。这一模型不仅提升了AI系统在复杂场景中的执行能力,还为开发者创造了全新的可能性。

Gemini 2 Flash Experimental的评测结果

Gemini 2.0 Flash Experimental模型在评测基准上提升很大,相比较此前的模型,其对比结果如下:

功能 基准 描述 Gemini 1.5 Flash 002 Gemini 1.5 Pro 002 Gemini 2.0 Flash Experimental
通用能力 MMLU-Pro 增强版本的MMLU数据集,包含多个学科的高难度任务问题 67.3% 75.8% 76.4%
代码生成 Natural2Code 跨Python、Java、C++、JS、Go的代码生成。使用HumanEval风格的数据集测试,未在网络上公开 79.8% 85.4% 92.9%
Bird-SQL (Dev) 评估将自然语言问题转换为可执行SQL的基准 45.6% 54.4% 56.9%
LiveCodeBench (代码生成) 用Python进行代码生成。此基准涵盖了更多近期示例:2024年6月1日至2024年10月5日 30.0% 34.3% 35.1%
事实性 FACTS Grounding 能够基于文档和多样化的用户请求提供事实性正确的回答。基于内部数据集测试 82.9% 80.0% 83.6%
数学 MATH 挑战性数学问题(包括代数、几何、预备微积分等) 77.9% 86.5% 89.7%
HiddenMath 比赛级别的数学问题,使用类似AIME/AMC的隐藏数据集测试,由专家制作且未在网络上公开 47.2% 52.0% 63.0%
推理 GPQA (diamond) 由生物学、物理学和化学领域专家撰写的挑战性问题数据集 51.0% 59.1% 62.1%
长上下文理解 MRCR (1M) 新型的、诊断性的长上下文理解评估 71.9% 82.6% 69.2%
图像 MMMU 多学科大学水平的多模态理解和推理问题 62.3% 65.9% 70.7%
Vibe-Eval (Reka) 在聊天模型中对日常挑战性场景进行视觉理解。使用Gemini Flash模型作为评估器测试 48.9% 53.9% 56.3%
音频 CoVoST2 (21种语言) 自动语音翻译(BLEU评分) 37.4 40.1 39.2
视频 EgoSchema (测试) 跨多个领域的视频分析 66.8% 71.2% 71.5%

Gemini 2 Flash Experimental模型在代码生成和数学能力上的具有显著突破,即使相比较Gemini 1.5 Pro来说,提升也很明显,特别的:

  • Natural2Code测试从85.4%提升到92.9%,增幅高达7.5个百分点
  • 在HiddenMath隐藏数学问题集上,性能从52.0%跃升至63.0%,提升11个百分点

这两个指标尤其重要,因为它们体现了模型在高复杂度、高专业性任务上的实质性进步。特别是代码生成和高难度数学问题的显著提升,意味着Gemini 2.0 Flash Experimental在处理专业、技术性极强的任务上已经达到了新的水平。这也可能是Google宣称该模型可以AI Agent发展的底气。

Gemini 2 Flash Experimental不开源但是免费使用

尽管Google没有开源Gemini 2 Flash模型,但是在Experimental阶段,它却提供给大家免费使用。在Google官方的Gemini网站上目前大家已经可以体验,而对于开发者Google也提供了的免费的API接口

对于开发者提供的Gemini 2.0 Flash Experimental接口有如下限制:

  • 每分钟10次请求
  • 每分钟最多400万个tokens
  • 每天最多1500次请求

虽然不多,但也不错了。关于Gemini 2.0 Flash Experimental的详细信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini_2_flash_exp

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送