DataLearner AI 专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。
© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。
直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~ | DataLearnerAI
首页 / 博客列表 / 博客详情 就在昨天,2025年10月7日,Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use 。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力,新增了“界面交互(UI 控制)”能力,能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件 等操作。
Gemini 2.5 Computer Use模型详情介绍
在多项 UI 自动化基准测试上,以更低延迟和更高准确率 于现有同类产品。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
Gemini 2.5 Computer Use
大幅领先
本文将介绍一下这个模型,同时要给出用这个模型操作DataLearnerAI网站的实例,结果很不错~
一、为什么我们需要一个可以基于UI界面操作的大模型AI Agent 当前大模型的计算机使用主要依赖接口:你可以让模型调用接口完成上传图片、提交表单、查数据库等。
但许多现实任务,如提交网页表单、操作后台管理系统或控制移动 App,本质上都依赖图形界面(GUI),而非 API 调用。
尽管已有部分模型尝试界面控制,它们常常受限于特定页面结构、动作库有限、上下文理解不准确、出错时恢复能力脆弱。常见问题包括:表单自动填写失败、复杂下拉菜单无法适配、异常情形不能自我纠错。
Gemini 2.5 Computer Use 模型的推出,正是为了填补这一空白。它构建在 Gemini 2.5 Pro 的视觉和推理基础上,专为 UI 交互优化,解决了代理在真实世界任务中的“最后一公里”问题。不同于以往版本的被动响应,这款模型主动“观察”截图、分析历史动作,并生成精确指令,形成闭环迭代。结果?代理不再是哑巴助手,而是能自主适应变化的智能操作者,大幅减少人为干预,推动 AI 从辅助工具向全能伙伴的跃进。
二、Gemini 2.5 Computer Use 模型不仅速度快,而且各方面水平都很好 在性能上,Gemini 2.5 Computer Use 模型展现出无可匹敌的领先。它在多个权威基准测试中脱颖而出,包括 Online-Mind2Web、WebVoyager 和 AndroidWorld,这些测试涵盖了从网页导航到移动控制的复杂任务。
下图展示了Gemini 2.5 Computer Use模型与当前最强模型在计算机使用方面的评测结果:
可以看到,Gemini 2.5 Computer Use模型各方面表现都很强,都明显由于其它模型:
在 Online-Mind2Web、WebVoyager 和 AndroidWorld 基准上,该模型均夺得第一名。
在 Browserbase 的整合测评中,它在浏览器控制任务中的 准确率超过 70% ,而延迟却保持在极低水平(典型任务从截图输入到动作输出的平均延迟仅约 225 ms )。
在延迟-准确率散点图中,它位于低延迟与高准确率象限的极端位置:几乎没有其他模型能同时兼顾这两项指标。
来自早期合作方的反馈也认为Gemini 2.5 Computer Use模型非常不错:
- Poke.com 表示其流程速度比“次优方案”快 50% ;
- Autotab 报告其在最难评测中的表现比竞品高出 18% ;
- Google 内部支付平台团队 引入该模型后,曾造成 25% 的 UI 测试失败率中 的那部分脆弱流程中,有 60% 的执行失败能被模型自动恢复 ,节省了大量人工干预。
从数据来看,Gemini 2.5 Computer Use 在多个维度都取得了 显著提升 :延迟减少、准确率提升、任务成功率增强、错误恢复能力增强。这些量化指标足以支撑其在 UI 控制领域的领先地位。
三、Gemini 2.5 Computer Use实测:去DataLearnerAI网站上比较DeepSeek-R1模型和Kimi K2模型 当前,Browserbase提供了一个Gemini 2.5 Computer Use的体验地址,我们测试了一下,在对话框中输入:
compare deepseek-r1 with kimi k2 model on datalearner.com,也就是用datalearner.com对比下过程最强的2个大模型DeepSeek-R1模型和Kimi K2。
Gemini 2.5 Computer Use成功完成了我们的任务,主要过程截图如下:
Gemini 2.5 Computer Use测试实例1
首先,模型准确理解用浏览器访问datalearner.com网站
Gemini 2.5 Computer Use测试实例2
接下来模型准确的理解到“大模型对比工具”这个菜单可以做这件事,点击进入了这个页面
Gemini 2.5 Computer Use测试实例3
接下来模型准确理解可以在搜索框输入deepseek-r1和kimi k2关键词检索,并且选择,同时模型可以理解直接点击下方对比按钮即可对比
最后跳转到这个对比页面后,模型开始下拉滑动对比这两个模型
上面的例子可以看出来Gemini 2.5 Computer Use模型是可以准确理解意图并进行操作的。显然,Gemini 2.5 Computer Use不太可能训练过我们DataLearnerAI的大模型对比工具功能(因为它才上线几个月),但是理解准确性还是不错的。
四、Gemini 2.5 Computer Use模型最大的价值是从视觉分析到自主执行的智能闭环 Gemini 2.5 Computer Use 模型的核心在于其“计算机使用”工具(computer_use)。它接收用户请求 、当前环境截图 和近期动作历史 作为输入,然后输出 UI 操作指令,如点击、输入或滚动。这些指令支持自定义函数扩展,甚至可排除敏感操作,确保灵活性。
Gemini 2.5 Computer Use模型最高支持 32K输入 和32K的输出长度,足以处理复杂多步任务,而其视觉推理能力让它能“读懂”屏幕元素,就像人类浏览网页一样。
视觉 + 上下文理解:识别界面元素结构该模型能够从界面截图中识别按钮、输入框、下拉框、滑块、选单、页签等常用控件。它不仅识别控件的位置,还能理解控件的语义(比如“提交”、“登录”、“下一步”)。
这意味着:当页面复杂、有多个层级、控件标识文本不规则时,它仍能准确定位目标操作对象。举例:用户请求“在某个网盘页面点击‘上传’按钮”,模型可在视觉上确定哪个图标最可能是上传控件,并进行点击。
多步操作串联 + 状态回环感知模型不是一次性操作,而是基于循环机制 :每一步执行后拿到新的界面截图、URL 与历史动作,继续推理下一步。
这带来的好处是:即便中间页面跳转、加载延迟、异步刷新、错误弹窗出现,模型也能识别“当前状态 vs 预期状态”的差异,重新修正操作路径。这种反馈—修正—继续执行的闭环控制,是在复杂场景下稳定执行的关键。举例:如果点击“下一步”后出现验证码弹窗,模型能判断当前任务被阻断,可能触发用户确认或选择绕过策略。
高阶交互行为:拖拽、排序、筛选、登录、验证除了点击与输入,Gemini 2.5 Computer Use模型还支持更加复杂的 UI 操作,例如:
拖拽与元素重排序:在可视化编辑画布、看板、图表界面中,模型可拖动组件、重新排列布局;
滤选与筛选控件:在下拉列表、复选框、滑块中做条件筛选;
登录与会话维持:模型可以模拟登录流程、填写账户/密码、处理验证码(在用户确认或授权的条件下)并保持会话状态连续;
高安全场景的确认策略:对于高风险操作(如支付、账户修改、权限变更等),模型可请求 用户确认 或开发者设定的安全策略。
五、Gemini 2.5 Computer Use的安全控制机制 为防范风险,Google 在模型层面与运行时均加入安全机制:
逐步安全服务(per-step safety) :每个动作在客户端执行前,由一个独立服务校验其风险;
开发者策略指令 :开发者可在策略层面指定某类操作必须询问用户确认 或 被拒绝(如绕过 CAPTCHA、控制设备、执行系统级操作等);
训练阶段内置安全策略 :让模型本身“学习”拒绝高风险行为、识别 prompt 注入、避免滥用。
这些机制共同保证:即便模型能“动”界面,也不会越过权限边界或未经授权操作。
六、Gemini 2.5 Computer Use总结以及在线体验地址 目前,Gemini 2.5 Computer Use 已进入公共预览(Public Preview) ,开发者可通过 Gemini API 在 Google AI Studio 或 Vertex AI 中使用。
此外,在 Chrome 浏览器环境中,可在 Browserbase 提供的 Demo 环境中测试 Agent 行为效果。
总体而言,Gemini 2.5 Computer Use 模型 是 Google 在 UI 控制领域的一次重大突破。它使得 AI Agent 真正具备“看得见界面、能动界面、能恢复故障”的能力。这对于自动化办公、AI 助手、软件测试、工作流集成等应用有巨大潜力。
如何让你的Agent更快,支持更多上下文?Anthropic发布Skills:专为AI Agent系统打造的专业领域工具规范,MCP强大的补充,更低的门槛和资源消耗