Gemini 3.1 Flash-Lite
Google DeepMind 于 2026 年 5 月 7 日 GA 的 Gemini 3.1 Flash-Lite,面向高吞吐、低延迟和成本敏感场景,支持 1M 输入、约 64K 输出以及最高 High 档 thinking。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型基本信息
开源和体验地址
官方介绍与博客
API接口信息
评测结果
和其他模型对比
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
发布机构
模型解读
Gemini 3.1 Flash-Lite 是 Google DeepMind 在 Gemini 3.1 系列中面向高吞吐、低延迟和成本敏感场景的 Flash-Lite 模型。Google Cloud 文档显示,正式模型 ID 为 gemini-3.1-flash-lite,发布阶段为 GA,发布日期为 2026 年 5 月 7 日;旧的 gemini-3.1-flash-lite-preview 将停用,应用应迁移到正式版。
规格与能力
官方文档将 Gemini 3.1 Flash-Lite 定位为最具成本效率的 Gemini 模型,面向高容量 LLM 流量。模型支持文本、图像、音频和视频输入,输出为文本;最大输入长度为 1,048,576 tokens,默认最大输出长度为 65,535 tokens。文档还列出可控 thinking levels,包括 minimal、low、medium 和 high,用于在质量与速度之间调节推理开销。
访问方式
模型可通过 Google Cloud Agent Platform / Vertex AI 使用,也可在 Google AI Studio 生态中作为 Gemini API 模型迁移目标。模型参数规模、训练数据细节和权重未公开,因此本条目按闭源模型收录,参数字段留空。
评测收录
Scale Labs 的 MCP-Atlas leaderboard 收录了 gemini-3.1-flash-lite (high),其 All 1000 pass rate 为 57.1%,本次按 DataLearner 的 thinking_high_with_tool mode 写入 MCP-Atlas 成绩。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
