加载中...
加载中...
Gemini 3 Deep Think February 2026 Upgrade
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Text | 2.00 | 12.00 |
| Modality | Input | Output |
|---|---|---|
| Text | 4.00 | 18.00 |
该升级版本是与科学家和研究人员密切合作开发的,专注于处理那些缺乏明确边界、没有单一正确答案或数据不完整的复杂研究问题。Deep Think不仅在抽象理论上表现出色,还特别注重实际应用,能够帮助研究人员解读复杂数据,协助工程师通过代码建模物理系统。
2026年2月升级版在多个顶级基准测试中取得了突破性成绩。在Humanity's Last Exam(一个专门测试前沿模型极限的基准)上,该模型在不使用外部工具的情况下达到了48.4%的分数,相比12月版本的41.0%有显著提升。在ARC-AGI-2测试中,模型取得了84.6%的验证成绩(由ARC Prize Foundation验证),相比12月版本的45.1%实现了巨大飞跃,这证明了模型在适应全新任务而非依赖记忆模式方面的卓越能力。
在编程竞赛平台Codeforces上,Deep Think达到了3455的Elo评分,处于传奇大师级别,超越了绝大多数人类竞技程序员。模型在2025国际数学奥林匹克、2025国际物理奥林匹克和2025国际化学奥林匹克的笔试部分均达到金牌水平。在高级理论物理的CMT-Benchmark测试中获得50.5%的分数,展现了专业级研究能力。
Deep Think模式支持文本、图像、视频、音频和代码等多模态输入。其核心能力包括:复杂数据解释、物理系统代码建模、优化问题求解、以及能够将草图转换为3D可打印文件的能力。该模型在实际应用中已被多个研究机构采用,例如罗格斯大学的数学家Lisa Carbone使用Deep Think审查高度技术性的数学论文,成功识别出此前通过人工同行评审未被发现的细微逻辑缺陷;杜克大学的Wang实验室利用Deep Think优化复杂晶体生长的制造方法,用于潜在半导体材料的发现。
推荐应用场景包括:科学研究中的文献审查和假设验证、工程领域的复杂系统建模、高级数学问题求解、竞技编程、物理和化学领域的实验数据分析、以及从概念设计到3D打印的工程实现。
2026年2月升级版目前通过两种方式提供访问。Google AI Ultra订阅用户(订阅费用为每月250美元)可以在Gemini应用中直接使用,通过在提示栏中选择Deep Think并在模型下拉菜单中选择Gemini 3 Pro来访问。对于研究人员、工程师和企业用户,Google首次开放了通过Gemini API访问Deep Think的早期体验计划,需要通过申请获得访问权限。
Deep Think模式的响应通常需要几分钟时间完成,这是因为模型采用了更深层次的内部推理过程。该模式继承了Gemini 3 Pro的技术规格,包括100万tokens的输入上下文窗口和最多64,000 tokens的输出容量。
版本差异说明:相比2025年12月4日首次发布的版本,2026年2月13日的升级版在所有主要基准测试上都实现了显著提升,特别是在ARC-AGI-2上从45.1%提升至84.6%,在Humanity's Last Exam上从41.0%提升至48.4%。升级版还首次通过Gemini API向企业和研究机构开放,并增强了在科学研究和工程应用方面的实用性。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
