DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!

2025/11/19 09:24:47
1,135 阅读
GeminiGemini3Pro

谷歌终于在2025年11月18日发布了新一代Gemini 3模型:Gemini 3.0 Pro。该模型目前在各个评测排行榜中都获得了非常优秀的结果,几乎是领先了所有的模型。而根据此前大家的匿名投票评分和早期测试,该模型的文本生成、编程、SVG生成等方面都非常优秀。谷歌官方强调,Gemini 3.0 Pro不仅在推理能力上达到了新的业界巅峰,更在理解深度、细微差别以及“思考”能力上实现了质的飞跃。

更多Gemini 3.0 Pro的信息包括使用地址也可以参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini-3-0-pro-preview-11-2025

Gemini 3系列定位:谷歌迄今为止最强的多模态大模型

Google 本次发布的 Gemini 3 是其两年来 Gemini 体系的最新阶段性成果。从官方披露的技术数据与产品部署规模来看,Gemini 3 的意义不仅是“一个更强的模型”,而是 Google 试图重构未来 AI 开发范式的关键节点。

Google 与 DeepMind 领导团队(Sundar Pichai、Demis Hassabis、Koray Kavukcuoglu)在介绍中强调了三点:

  1. 推理深度和语义细腻度的全面提升
  2. 更善于理解用户意图与交互上下文
  3. 将多模态、Agentic、长上下文能力进行系统整合

Gemini 3 不再只是“读文本和图片”,而是尝试做到“读场景、读情境、读任务结构”。Google 将其称作 the most intelligent model that helps you bring any idea to life。

Gemini 3 Pro:系统化领先的推理与多模态能力

从 Google 公布的多项权威评测结果来看,Gemini 3.0 Pro 在整体能力上已经呈现跨代提升,尤其是在推理、数学、多模态和长上下文任务中形成了明显领先优势。它的能力结构更均衡,在多个应用关键路径上表现出旗舰模型应有的强度。

下图展示了谷歌官方给出的Gemini 3.0 Pro的评测结果:

简短的说就是:Gemini 3.0 Pro 在推理强度、多模态、视频与屏幕理解等“真实任务能力”上形成了对 Gemini 2.5 Pro、Claude Sonnet 4.5 和 GPT-5.1 的全面领先。

具体的可以列举几个:

  • ① 数学与科学推理:大幅领先同级模型

    • AIME 2025:100%(GPT-5.1 为 94%,Claude 为 87%)
    • GPQA Diamond:91.9%(显著高于 2.5 Pro 的 86.4% 和 GPT-5.1 的 88.1%) → 在高难度推理链路上形成第一梯队的领先差距。
  • ② 多模态能力(尤其视频)领先幅度最大

    • Video-MMMU:87.6%(相比 GPT-5.1 的 80.4% 和 Claude 的 77.8% 明显更高)
    • ScreenSpot-Pro:72.7%(GPT-5.1 仅为 3.5%)
    • MMMU-Pro:81.0%(领先 2.5 Pro 的 68%) → Google 的底层多模态优势在此代全面兑现。
  • ③ 工具 / Agent 能力稳居第一梯队

    • t2-bench:85.4%(Claude 4.5 为 84.7%,GPT-5.1 为 80.2%)
    • Terminal-Bench 2.0:54.2%(优于 GPT-5.1 的 47.6%) → 在“Agent 真实任务”中表现稳定,部分项目略逊于 Claude 但整体仍领先。
  • ④ 长上下文任务保持明显优势

    • MRCR needle(8-needle):77.0%(高于 GPT-5.1 的 61.6%) → 展示出成熟的长文本稳定性。

也就是说,除了SWE Bench Verified外,谷歌模型几乎在所有的评测结果上都好于竞争对手。

更重要的是,Google 还强调了交互风格层面的变化: Gemini 3 Pro 的回答更倾向于**“直接给出洞见”**,少一些“客套和奉承”,更像是会跟你讨论问题、讲清楚利弊的“思考伙伴”,而不是只会给出漂亮措辞的聊天机器人。

Gemini 3 Deep Think:进一步强化的推理模式

如果说 Gemini 3 Pro 已经覆盖绝大部分高难度任务,那么 Gemini 3 Deep Think 就是把“极限推理”这个方向往前推了一截。

Gemini 3 Pro Deep Think 本质上是一个增强推理模式:允许模型在复杂问题上花更多“思考步骤”,尤其是在需要抽象模式识别与复杂逻辑链的场景。官方给出了一些对比数据:

在复杂问题的解决上,Gemini 3.0 Pro的Deep Thinking模式显著提升了效果。特别是看ARC-AGI-2这个测试,其精心设计的视觉逻辑谜题要求 AI 模型在首次接触的情况下,通过分析和推理找到正确答案。此举旨在超越模型在海量数据中学习到的模式记忆,转而评估其真正的理解和解决问题的能力。这是一项非常困难的挑战,截止目前,表现最好都是GPT-5 Pro,但是只有18.3,而Gemini 3.0 Pro用更少的成本就获得了31.1的分数,远超其它模型,深度思考模式下更是获得了45.1分,傲视群雄!

模型之外:Learn / Build / Plan——Gemini 3 打造的新一代智能系统

如果只看评测榜单,Gemini 3.0 Pro 已经是标准意义上的“旗舰模型”;但在这次官方发布里,Google 更想强调的是模型之外的东西——它能让你学什么、能帮你做什么,以及能替你规划什么。

概括来说,就是三个关键词:Learn anything、Build anything、Plan anything,再加上一款全新的 Agent-first 开发平台 Google Antigravity。

在「Learn anything」方面,Gemini 3 利用多模态与 100 万 token 上下文,把传统“问答式”体验升级成一种更接近个人学习助手的形态:
它可以一次性消化手写食谱、论文、长视频和教程,不只是给你一段总结,而是重组为更适合人阅读和记忆的结构——比如家庭菜谱合集、带交互练习的知识卡片、可运行的可视化代码,甚至是基于你上传的视频给出动作分析和训练计划。Search 中的 AI Mode 则进一步把这些能力做成动态 UI,让“解释一个复杂概念”变成一套可交互、可视化的学习界面。

在「Build anything」上,Gemini 3 被官方定义为目前最强的 vibe coding + agentic coding 模型:
你可以用自然语言描述一个 3D 小游戏、数据面板或交互式网页,模型直接产出可运行的原型;更重要的是,它可以围绕一个开发任务进行拆解、调用工具、迭代调试——不再只是“帮你写段代码”,而是逐步接近“帮你把一个想法做完整”。这一能力已经通过 AI Studio、Vertex AI、Gemini CLI 以及 Cursor、GitHub、JetBrains、Replit 等第三方平台落地。

「Plan anything」则对应的是长程规划与 Agent 能力。Gemini 3 在 Vending-Bench 2 这类长周期评测中表现出更稳定的决策与更高的整体收益,说明它不仅能算、还能在一整段“时间轴”上记住自己在做什么。面向普通用户,这体现在 Gemini Agent 上,能帮你处理如整理邮箱、预约服务、执行多步任务等场景;面向开发者,Google 推出了全新的 Google Antigravity:在这个 Agent-first 的开发环境里,模型可以直接操控编辑器、终端和浏览器,完成“规划 → 编码 → 运行 → 验证”的端到端开发流程,同时与 Gemini 2.5 Computer Use、Nano Banana 等模型协同工作。

因此,从系统层面看,Gemini 3.0 Pro 不仅是一个“分数很高的模型”,更是 Google 正式把多模态、长上下文和 Agent 能力整合成一套「学、建、规划」统一体验的起点。十分有野心的目标!

Gemini 3.0 Pro目前可以在AI Studio免费使用

说了这么多,大家其实可以直接去官网体验了。目前AI Studio上面是可以免费使用的,也可以用官方提供的Vibe Coding来创建APP。

我们也做了一个简单的一句话生成Gemini 3.0 Pro官网的模型页面:

可以说,非常精致了!

更多Gemini 3.0 Pro的信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini-3-0-pro-preview-11-2025

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 谷歌发布新一代大模型Gemini 2.5 Flash,成本、速度和性能的最优均衡,同时支持推理和非推理模式,评测结果超Sonnet 3.7
  • Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型,最高支持200万上下文,全模态输入,推理大模型,LMArena排名第一
  • Google开源第三代Gemma-3系列模型:支持多模态、最多128K输入,其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max
  • Google发布Gemini 2.0 Pro:MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1,最高上下文长度支持200万tokens!开发者每天免费50次请求!
  • Google Gemini Pro 1.5重大更新:新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式,DataLeanrerAI实测音频理解能力优秀,且免费使用!
  • 重磅!谷歌开源Gemini同源技术大模型Gemma,分别为70亿参数和20亿参数,同等规模参数评测极其优秀!
  • 重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一
  • Google Gemini Pro多模态接口开放!DataLearnerAI第一时间测试Gemini Pro多模态能力,比想象惊喜!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署