Gemini 2.5 Computer Use Preview (10-2025)
支持
128K tokens
64000 tokens
多模态大模型
2025-10-07
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 1.25 美元 / 100万 tokens | 10.00 美元 / 100万 tokens |
| 图片 | 1.25 美元 / 100万 tokens |
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 2.50 美元 / 100万 tokens | 15.00 美元 / 100万 tokens |
| 图片 | 2.50 美元 / 100万 tokens |
Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 视觉理解与推理能力而构建的专用模型,面向通过浏览器等图形界面执行业务操作的智能体(agent)场景。该模型以 Preview 形式通过 Gemini API 在 Google AI Studio 与 Vertex AI 向开发者开放。
模型通过新的 computer_use 工具以循环(agent loop)方式运行:输入包含用户目标、当前界面截图与近期动作历史;模型输出为规范化的 UI 动作(如点击、输入、拖拽等)的函数调用,同时可能附带对高风险动作的确认请求。客户端负责执行动作并回传新截图与 URL,直至任务完成或中止。
当前模型主要针对浏览器环境进行了优化,并在移动端 UI 控制基准上显示出良好潜力;尚未针对桌面 OS 级控制进行优化。
gemini-2.5-computer-use-preview-10-2025Google 公布的自测与第三方环境(如 Browserbase harness)显示,该模型在 Online-Mind2Web、WebVoyager 与 AndroidWorld 等多项网页/移动控制基准上达到领先准确率与较低时延。具体分数及方法学细节见官方博文与随附的评估说明。
模型以 API 方式提供(AI Studio/Vertex AI)。Vertex AI 定价页提供了 Gemini 2.5 Pro — Computer Use (Preview) 的令牌计费:当输入上下文 ≤200K tokens 与 >200K tokens 时,输入/输出分别采用不同单价;若无在该模型项下明确列出的“缓存计费(Cached Input)”,则不应填入缓存单价。
适合:跨站信息采集、表单自动化、网页流程/用例测试、在登录态下操作 UI 等。限制:Preview 阶段可能产生错误与安全风险;需在受控环境运行,并对高风险动作实施二次确认与审计。
关注DataLearnerAI微信公众号,接受最新大模型资讯