Ge

Gemini 2.5 Computer Use (Preview)

多模态大模型

Gemini 2.5 Computer Use Preview (10-2025)

发布时间: 2025-10-07

213
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
128K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

128K tokens

最长输出结果

64000 tokens

模型类型

多模态大模型

发布时间

2025-10-07

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 1.25 美元 / 100万 tokens
≤ 200K tokens
10.00 美元 / 100万 tokens
≤ 200K tokens
图片 1.25 美元 / 100万 tokens --
超上下文计费 Extended
模态 输入 输出
文本 2.50 美元 / 100万 tokens
> 200K tokens
15.00 美元 / 100万 tokens
> 200K tokens
图片 2.50 美元 / 100万 tokens
> 200K tokens
--

Gemini 2.5 Computer Use (Preview)模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Gemini 2.5 Computer Use Preview (10-2025)模型解读

概述

Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 视觉理解与推理能力而构建的专用模型,面向通过浏览器等图形界面执行业务操作的智能体(agent)场景。该模型以 Preview 形式通过 Gemini API 在 Google AI Studio 与 Vertex AI 向开发者开放。

工作机理与能力

模型通过新的 computer_use 工具以循环(agent loop)方式运行:输入包含用户目标、当前界面截图与近期动作历史;模型输出为规范化的 UI 动作(如点击、输入、拖拽等)的函数调用,同时可能附带对高风险动作的确认请求。客户端负责执行动作并回传新截图与 URL,直至任务完成或中止。

当前模型主要针对浏览器环境进行了优化,并在移动端 UI 控制基准上显示出良好潜力;尚未针对桌面 OS 级控制进行优化。

技术规格(公开信息)

  • 模型版本(API id):gemini-2.5-computer-use-preview-10-2025
  • 输入模态:文本、图像(截图);输出模态:文本
  • 上下文窗口:输入 128K tokens;最大输出 64K tokens

性能与评测

Google 公布的自测与第三方环境(如 Browserbase harness)显示,该模型在 Online-Mind2Web、WebVoyager 与 AndroidWorld 等多项网页/移动控制基准上达到领先准确率与较低时延。具体分数及方法学细节见官方博文与随附的评估说明。

访问与定价

模型以 API 方式提供(AI Studio/Vertex AI)。Vertex AI 定价页提供了 Gemini 2.5 Pro — Computer Use (Preview) 的令牌计费:当输入上下文 ≤200K tokens 与 >200K tokens 时,输入/输出分别采用不同单价;若无在该模型项下明确列出的“缓存计费(Cached Input)”,则不应填入缓存单价。

应用与限制

适合:跨站信息采集、表单自动化、网页流程/用例测试、在登录态下操作 UI 等。限制:Preview 阶段可能产生错误与安全风险;需在受控环境运行,并对高风险动作实施二次确认与审计。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat