直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

在多项 UI 自动化基准测试上，以更低延迟和更高准确率于现有同类产品。

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

DataLearner 官方微信

一、为什么我们需要一个可以基于UI界面操作的大模型AI Agent

二、Gemini 2.5 Computer Use 模型不仅速度快，而且各方面水平都很好

三、Gemini 2.5 Computer Use实测：去DataLearnerAI网站上比较DeepSeek-R1模型和Kimi K2模型

四、Gemini 2.5 Computer Use模型最大的价值是从视觉分析到自主执行的智能闭环

视觉 + 上下文理解：识别界面元素结构

多步操作串联 + 状态回环感知

高阶交互行为：拖拽、排序、筛选、登录、验证

五、Gemini 2.5 Computer Use的安全控制机制

六、Gemini 2.5 Computer Use总结以及在线体验地址

热门博客