智谱AI发布GLM-4.5V多模态推理模型

标签:#GLM-4.5V##开源大模型##智谱AI##视觉理解大模型# 时间:2025/08/11 23:28:48 作者:小木

智谱AI刚刚开源了新一代视觉-语言模型(Vision-Language Model, VLM)——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air(总参数量1060亿,激活参数量120亿),延续GLM-4.1V-Thinking的技术路线,在42项公开视觉多模态基准测试中,在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景,采用Mixture-of-Experts(MoE)架构,并保持开源。


[TOC]

GLM-4.5V的模型特点

GLM-4.5V的开源协议是MIT协议,意味着毫无限制的免费商用授权。其基座模型GLM-4.5-Air本身也是极其优秀的模型,于7月28日开源(详情参考:https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-106b-a12b-0715 )。

在七月初,其实智谱已经开源了90亿参数规模的GLM-4.1V-9B模型了,本次开源的模型不管是参数量级还是识别能力都更强。但是由于MoE架构,每次激活120亿参数,和GLM-4.1V-9B的推理速度相比,其实可能差异不大。官网给出的是每秒60-80个tokens左右,如果有更好的硬件应该更强。

其主要特点如下:

  1. 广泛任务覆盖
    GLM-4.5V支持多种类型的视觉内容处理,涵盖图像推理(场景理解、多图分析、空间识别)、视频理解(长视频切分与事件识别)、GUI任务(屏幕读取、图标识别、桌面操作辅助)、复杂图表与长文档解析(研究报告分析、信息抽取)、Grounding(精准视觉元素定位)等。

  2. Thinking模式切换
    用户可在快速响应与深度推理之间切换,以适配不同任务对速度与推理质量的需求,该功能与GLM-4.5语言模型一致。

  3. 长上下文与多模态输入
    最大输出为64K tokens,输入可包括视频、图片、文本与文件,输出为文本。

GLM-4.5V模型的评测结果

在同一级别的多模态理解大模型上,GLM-4.5V在大多数主流基准上,它的得分位居所有对比模型的前列,尤其在视觉理解跨模态推理多任务泛化能力方面表现突出。


不过,在部分极端推理或对抗性任务中,优势并不明显,与 Qwen2.5-VL、Step3 等模型存在分项差距。具体来说:

  1. 多模态视觉问答与细粒度定位全面领先
    在 MMBench 系列、RefCOCO-avg (91.3)、Ref-L4-test (89.5) 等任务中 GLM-4.5V 拿下最高分,明显领先于其他对比模型,体现了其卓越的视觉细节捕捉与跨语言适应能力。

  2. 多模态到任务执行的迁移能力突出
    在 WebVoyagerSom (84.4)、Design2Code (82.2)、Flame-React-Eval (82.5) 等交互式和编码任务中表现优异,说明模型不仅能理解和推理,还能将感知结果有效转化为可执行的任务步骤。

  3. 对抗性与极端推理任务表现不足
    在 ZeroBench(23.4)和 DynaMath(53.9)等任务中得分偏低,与 Qwen2.5-VL、Step3 存在明显差距,反映其在处理干扰信息和高复杂度推理链条时的鲁棒性不足。

智谱AI开源了一个桌面应用助手

为了方便大家理解GLM-4.5V模型的应用,智谱AI开源了一个基于截图的桌面助手。


该桌面助手可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。

不过非常可惜的是,目前该应用仅支持苹果的 macOS Apple Silicon(M-系列芯片: M1/M2/M3)

GLM-4.5V的定价和总结

GLM-4.5V的价格很便宜,其中输入是每百万tokens 0.6美元,输出是每百万tokens 1.8美元,非常划算。

视觉语言模型(Vision-Language Models, VLMs)已成为智能系统的重要基础,广泛应用于图像理解、视频解析、文档分析、交互式智能体等领域。随着现实世界任务日益复杂,VLM 的能力正在从基础的多模态感知,向更高精度、更强推理、更长上下文理解和多模态智能体支持方向发展。这类模型在科研、工业自动化、教育、交互设计等领域的潜力不断释放,也成为各大厂商技术竞争的重要方向。

GLM-4.5V的开源其实打开了很多想象,就像那个应用助手的能力一样。与其理解复杂的接口和程序,不如直接看图,也许这比对接接口工具更加容易~

关于GLM-4.5V的开源地址和其它信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/GLM-4_5V

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客