DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型

2023/12/07 10:05:15
1,560 阅读
GeminiGemini-NanoGemini-ProGemini-UltraGPT-4V

谷歌在几个小时前发布了Gemini大模型,号称历史最强的大模型。这是一系列的多模态的大模型,在各项评分中超过了GPT-4V,可能是目前最强的模型。

Gemini的MMLU得分超过了90分
Gemini的MMLU得分超过了90分
  • Gemini总体简介
  • Gemini-Ultra
  • Gemini-Pro
  • Gemini-Nano
  • Gemini的技术细节
  • Gemini的评测结果
  • Gemini的后续使用

Gemini总体简介

Gemini系列是多模态大模型,支持文本、语音、图片和视频,输出,原生支持32K的输入序列!

Gemini分为三个版本,最大的是Gemini-Ultra,然后是Gemini-Pro,最小的是Gemini-Nano;

Gemini不同版本的总结如下:

Model sizeModel description
Ultra我们最强大的模型,能够跨越广泛的高度复杂任务提供最先进的性能,包括推理和多模态任务。它可以高效地在TPU加速器上大规模服务,这得益于Gemini架构。
Pro在成本和延迟方面经过性能优化的模型,能够在广泛的任务中提供显著的性能。这款模型展示了强大的推理性能和广泛的多模态能力。
Nano我们最高效的模型,设计用于在设备上运行。我们训练了两个版本的Nano,分别为1.8B(Nano-1)和3.25B(Nano-2)参数,针对低和高内存设备。它通过从更大的Gemini模型中提取精华来训练。它是4位量化的,用于部署,并提供业界最佳性能。
Gemini-Ultra

Gemini-Ultra是最大规模参数版本,没有公布具体参数,据猜测超过了3000亿规模,在科学推理、策略规划等复杂任务上具有很好的表现;

Gemini-Ultra在各项评测的结果都超过了GPT-4V;在自然语言处理相关的评测中,结果如下:

Gemini的评分超过了GPT-4V
Gemini的评分超过了GPT-4V

Gemini-Ultra将会在明年早些时候更新到Bard中。

Gemini-Ultra的模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/gemini-ultra

Gemini-Pro

Gemini-Pro是比Ultra小一点版本的模型,也没有公布参数,据猜测在1000亿以上,在自然语言理解、可视化、分析等方面工作能力较强;

Gemini Pro据称已经在昨天的Google Bard上更新了,有Google Bard权限的童鞋可以使用对比;

Gemini-Pro的模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/gemini-pro

Gemini-Nano

其中Gemini-Nano分为两个版本:一个是18亿参数的Gemini-Nano1,一个是32.5亿参数的Gemini-Nano2,通过在较大规模模型蒸馏得到;

Gemini-Nano部署和推理可以使用4-bit量化版本获得最好的性能和成本的平衡,目标是移动设备部署;

Gemini-Nano的模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/gemini-nano

Gemini的技术细节

这部分和OpenAI一样,没有过多的细节,只知道这个模型是Decoder-only的transformer模型,但是针对谷歌的TPU和大规模训练做了优化。使用了多种不同的attention机制,包括multi-query attention。

Gemini的视频理解是通过将视频编码为大上下文窗口中的一系列帧来实现的。视频帧或图像可以自然地与文本或音频交织在一起,作为模型输入的一部分。模型可以处理可变的输入分辨率,以便在需要细粒度理解的任务上投入更多的计算资源。此外,Gemini可以直接摄取来自通用语音模型(USM)特征的16kHz音频信号。这使得模型能够捕捉那些通常在音频被简单地映射到文本输入时会丢失的细微差别。

谷歌提到Gemini-Pro模型:

我们基础设施和学习算法的内在可扩展性使我们能够在几周内完成预训练,利用的资源只是Ultra的一部分

也就是说这个Gemini-Pro只用几周就训练完了。

Gemini的训练数据来自网页文档、书籍和代码的数据,并包括图像、音频和视频数据。Gemini使用SentencePiece分词器,谷歌发现在整个训练语料库的大样本上训练分词器可以改善推断出的词汇表,进而提高模型性能。

Gemini模型可以高效地对非拉丁文字进行分词,这反过来又可以提高模型质量以及训练和推理速度。训练最大模型的令牌数量是根据Hoffmann等人(2022年)的方法确定的。

Gemin是分阶段性地训练,以在训练过程中改变数据集的成分:在训练结束时增加与域相关数据的权重。发现数据质量对于高性能模型至关重要,并且认为在寻找预训练的最佳数据集分布方面仍有许多有趣的问题尚待解决。

Gemini的评测结果

Gemini-Ultra在MMLU的得分上超过了90,是目前已知的最强的基座大模型,超过了GPT-4V,同时在GSM8K上获得了94.4的得分,也是目前数学能力最强的模型。

DataLearner的模型评测排行榜单收集结果如下:

Gemini的评测结果
Gemini的评测结果
Gemini在代码评测结果
Gemini在代码评测结果

可以看到,Gemini在代码评测中有76分,而GPT-4是82分,但实际上GPT-4官方公布但是67分,82分是微软测出的。谷歌官方对比用的是OpenAI官方数据。

上述两个评测排行地址来自DataLearnerAI,具体参考: DataLearnerAI大模型综合能力评测数据排行:https://www.datalearner.com/ai-models/llm-evaluation DataLearnerAI大模型代码评测数据排行:https://www.datalearner.com/ai-models/llm-coding-evaluation

具体的对比结果如下:

|评测任务| Gemini-Ultra | Gemini-Pro | GPT4 | GPT3.5 | PalLM2L | Claude2 | Inflect | Grok1 | LLAMA2 | |--------|--------|------|--------|---------|---------|---------|-------|--------| | MMLU | 90.04% | 79.13% | 87.29% | 70% | 78.4% | 78.5% | 79.6% | 73.0% | 68.0% | | GSM8K | 94.4% | 86.5% | 92.0% | 57.1% | 80.0% | 88.0% | 81.4% | 62.9% | 56.8% | | MATH | 53.2% | 32.6% | 52.9% | 34.1% | 34.4% | — | 34.8% | 23.9% | 13.5% | | BIG-Bench-Hard | 83.6% | 75.0% | 83.1% | 66.6% | 77.7% | — | — | 51.2% | | HumanEval | 74.4% | 67.7% | 67.0% | 48.1% | — | 70.0% | 44.5% | 63.2% | 29.9% | | Natural2Code | 74.9% | 69.6% | 73.9% | 62.3% | — | — | — | — | | DROP | 82.4 | 74.1 | 80.9% | 64.1% | 82.0% | — | — | — | | HellaSwag | 87.8% | 84.7% | 95.3% | 85.5% | 86.8% | — | 89.0% | 80.0% | | WMT23 | 74.4 | 71.7 | 73.8 | — | 72.7 | — | — | — |

可以看到,除了HellaSwag的评测,其它的评测结果中,Gemini-Ultra都是强于GPT-4V的。

"HellaSwag" 是一个常识推理的数据集,用于评估自然语言处理(NLP)模型的能力,特别是在生成文本和理解复杂情境的语境中。这个数据集包含了需要模型完成句子或段落,从而显示出其对世界知识的理解和预测能力的任务。这类评测通常用于测试和比较不同的语言模型,以确定它们在理解和生成自然语言方面的性能。

Gemini在多模态的能力上也很强。并且最小版本的Gemini-nano也有多模态能力,Gemini和GPT-4V在多模态的评测对比如下:

Gemini UltraGemini ProGemini Nano 2Gemini Nano 1GPT-4VPrior SOTA
MMMU (val)59.4%47.9%32.6%26.3%56.8%
TextVQA (val)82.3%74.6%65.9%62.5%78.0%
DocVQA (test)90.9%88.1%74.3%72.2%88.4%
ChartQA (test)80.8%74.1%51.9%53.6%78.5%
InfographicVQA (test)80.3%75.2%54.5%51.1%75.1%
MathVista (testmin)53.0%45.2%30.6%27.3%49.9%
AI2D (test)79.5%73.9%51.0%37.9%78.2%
VQAv2 (test-dev)77.8%71.2%67.5%62.7%77.2%

Gemini的后续使用

目前Gemini-Pro已经更新到Google Bard中,而Gemini Ultra将会在明年早些时候更新到Google Bard。Gemini提供API访问,大概在12月13日Google Cloud上可以申请。

Gemini完整的技术文档:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!
  • 谷歌发布新一代大模型Gemini 2.5 Flash,成本、速度和性能的最优均衡,同时支持推理和非推理模式,评测结果超Sonnet 3.7
  • Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型,最高支持200万上下文,全模态输入,推理大模型,LMArena排名第一
  • Google开源第三代Gemma-3系列模型:支持多模态、最多128K输入,其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max
  • Google发布Gemini 2.0 Pro:MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1,最高上下文长度支持200万tokens!开发者每天免费50次请求!
  • Google Gemini Pro 1.5重大更新:新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式,DataLeanrerAI实测音频理解能力优秀,且免费使用!
  • 重磅!谷歌开源Gemini同源技术大模型Gemma,分别为70亿参数和20亿参数,同等规模参数评测极其优秀!
  • 重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署