智谱AI发布GLM-4.5V多模态推理模型
智谱AI刚刚开源了新一代视觉-语言模型(Vision-Language Model, VLM)——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air(总参数量1060亿,激活参数量120亿),延续GLM-4.1V-Thinking的技术路线,在42项公开视觉多模态基准测试中,在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景,采用Mixture-of-Experts(MoE)架构,并保持开源。

GLM-4.5V的模型特点
GLM-4.5V的开源协议是MIT协议,意味着毫无限制的免费商用授权。其基座模型GLM-4.5-Air本身也是极其优秀的模型,于7月28日开源(详情参考:https://www.datalearner.com/ai-models/pretrained-models/glm-4_5_moe-106b-a12b-0715 )。
在七月初,其实智谱已经开源了90亿参数规模的GLM-4.1V-9B模型了,本次开源的模型不管是参数量级还是识别能力都更强。但是由于MoE架构,每次激活120亿参数,和GLM-4.1V-9B的推理速度相比,其实可能差异不大。官网给出的是每秒60-80个tokens左右,如果有更好的硬件应该更强。
其主要特点如下:


