Google发布第二代Gemini大语言模型，首个登场的Gemini 2 Flash Experimental，评测结果显示其能力已经超越上一代的Gemini 1.5 Pro！

Gemini是谷歌发布的一系列大模型的名称，是谷歌前期大模型Bard产品的替代品。从Gemini 1.0发布开始，每一次发布都获得了不错的反响。今天，Google发布了最新一代的Gemini 2.0模型，首个产品是其参数规模较小的Gemini 2.0 Flash，它的推理速度是Gemini 1.5 Pro的2倍，但是各项评测结果上的表现却超过了Gemini 1.5 Pro。该模型完全免费提供给大家使用。

[TOC]

Gemini 2.0 Flash Experimental简介

Gemini 2.0 Flash Experimental是谷歌发布的Gemini 2.0系列中的第一个模型，名字带着Experimental也意味着当前是测试版模型，并非正式版本。但是，Google官方宣传2.0系列模型相比前面的模型有巨大的性能提升，它可以是实现“智能体的体验”，专注于增强AI完成任务的能力。

Google Gemini Flash系列模型简介

在具体介绍Gemini 2.0 Flash模型之前，我们先对这个Gemini Flash系列模型简单介绍一下，这样大家更能理解这个模型的情况。

Gemini Flash系列并不是在最早的Gemini系列模型中。2023年12月份，Google发布了Bard模型的升级版本Gemini系列，当时发布的时候仅包含Gemini Ultra、Gemini Pro和Gemini Nano，参数规模依次递减，其中Nano系列是移动端的模型（这部分的信息可以参考此前DataLearnerAI的博客介绍：谷歌发布号称超过GPT-4V的大模型Gemini：4个版本，最大的Gemini的MMLU得分90.04，首次超过90的大模型）。在2024年5月份，Google发布了Gemini 1.5系列，同时发布了第一个Gemini Flash模型，即Gemini 1.5 Flash。其定位是性能略低于Gemini 1.5 Pro，但是速度更快。2024年9月份，Google发布了Gemini 1.5 Flash更新版，大版本号未变，但是能力增强。同时，将5月份发布的Gemini 1.5 Flash更名为Gemini 1.5 Flash-001，9月份发布的Gemini 1.5 Flash-002。

时隔三个月之后的今天，Google发布了Gemini 2 Flash Experimental模型，该模型能力再次加强！Gemini 2 Flash的设计目标是比前代模型更强大、更快速，为AI模型性能设定新的基准。

Gemini 2 Flash Experimental关键特性

本次发布的Gemini 2.0 Flash Experimental是一个实验性质的模型，因此，版本号带了Experimental。其主要特性总结如下：

性能与速度： Gemini 2.0 Flash Experimental的速度是Gemini 1.5 Pro的2倍，同时在多个关键基准测试中超过了Gemini 1.5 Pro。
超长上下文： Gemini 2 Flash Experimental最高支持100万Tokens的超长上下文，单次最高支持最多8K的输出！这个比很多模型都高！
多模态能力：
- 输入： 支持文本、图像、视频和音频。
- 输出： 可生成文本和音频，提供8种高质量语音，涵盖多种语言，并可对语音进行详细定制（如语速、风格、口音）。此外，它还支持与文本同步生成和编辑图像，支持社交媒体内容或教程等应用中的对话式、多轮编辑。
原生工具集成：
该模型原生支持谷歌搜索等工具，以提供更准确、实时的答案，并支持代码执行，减少了在应用中单独调用功能的需求。它还支持并行搜索操作，以提高信息的准确性和检索效率。
多模态实时API： 该API支持实时音频和视频流，能够实现自然对话机制的动态应用，包括语音活动检测和打断正在进行的回应。
代理架构：这个就是指Gemini 2 Flash在AI Agent上的应用能力，它旨在支持能够利用记忆、推理和规划来执行任务的AI代理，从而为更复杂、互动性的AI应用开辟了新的可能性。

从谷歌官方的介绍看，Gemini 2.0 Flash不仅仅是一个模型升级，更代表了AI智能体技术的范式转变。它标志着大模型从简单的内容生成向真正理解、规划和执行复杂任务的智能系统的转变。

Gemini 2.0 Flash Experimental 展现了下一代AI代理（AI Agent）的强大潜力，其核心能力在于实现了多模态交互、实时响应和原生工具集成的有机融合。这一模型不仅提升了AI系统在复杂场景中的执行能力，还为开发者创造了全新的可能性。

Gemini 2 Flash Experimental的评测结果

Gemini 2.0 Flash Experimental模型在评测基准上提升很大，相比较此前的模型，其对比结果如下：

功能	基准	描述	Gemini 1.5 Flash 002	Gemini 1.5 Pro 002	Gemini 2.0 Flash Experimental
通用能力	MMLU-Pro	增强版本的MMLU数据集，包含多个学科的高难度任务问题	67.3%	75.8%	76.4%
代码生成	Natural2Code	跨Python、Java、C++、JS、Go的代码生成。使用HumanEval风格的数据集测试，未在网络上公开	79.8%	85.4%	92.9%
	Bird-SQL (Dev)	评估将自然语言问题转换为可执行SQL的基准	45.6%	54.4%	56.9%
	LiveCodeBench (代码生成)	用Python进行代码生成。此基准涵盖了更多近期示例：2024年6月1日至2024年10月5日	30.0%	34.3%	35.1%
事实性	FACTS Grounding	能够基于文档和多样化的用户请求提供事实性正确的回答。基于内部数据集测试	82.9%	80.0%	83.6%
数学	MATH	挑战性数学问题（包括代数、几何、预备微积分等）	77.9%	86.5%	89.7%
	HiddenMath	比赛级别的数学问题，使用类似AIME/AMC的隐藏数据集测试，由专家制作且未在网络上公开	47.2%	52.0%	63.0%
推理	GPQA (diamond)	由生物学、物理学和化学领域专家撰写的挑战性问题数据集	51.0%	59.1%	62.1%
长上下文理解	MRCR (1M)	新型的、诊断性的长上下文理解评估	71.9%	82.6%	69.2%
图像	MMMU	多学科大学水平的多模态理解和推理问题	62.3%	65.9%	70.7%
	Vibe-Eval (Reka)	在聊天模型中对日常挑战性场景进行视觉理解。使用Gemini Flash模型作为评估器测试	48.9%	53.9%	56.3%
音频	CoVoST2 (21种语言)	自动语音翻译（BLEU评分）	37.4	40.1	39.2
视频	EgoSchema (测试)	跨多个领域的视频分析	66.8%	71.2%	71.5%

Gemini 2 Flash Experimental模型在代码生成和数学能力上的具有显著突破，即使相比较Gemini 1.5 Pro来说，提升也很明显，特别的：

Natural2Code测试从85.4%提升到92.9%，增幅高达7.5个百分点
在HiddenMath隐藏数学问题集上，性能从52.0%跃升至63.0%，提升11个百分点

这两个指标尤其重要，因为它们体现了模型在高复杂度、高专业性任务上的实质性进步。特别是代码生成和高难度数学问题的显著提升，意味着Gemini 2.0 Flash Experimental在处理专业、技术性极强的任务上已经达到了新的水平。这也可能是Google宣称该模型可以AI Agent发展的底气。

Gemini 2 Flash Experimental不开源但是免费使用

尽管Google没有开源Gemini 2 Flash模型，但是在Experimental阶段，它却提供给大家免费使用。在Google官方的Gemini网站上目前大家已经可以体验，而对于开发者Google也提供了的免费的API接口。

对于开发者提供的Gemini 2.0 Flash Experimental接口有如下限制：

每分钟10次请求
每分钟最多400万个tokens
每天最多1500次请求

虽然不多，但也不错了。关于Gemini 2.0 Flash Experimental的详细信息参考DataLearnerAI的模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/gemini_2_flash_exp