智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权
GLM-4.1V-Thinking是智谱AI(Zhipu AI)与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代,而是通过一个以“推理为中心”的全新训练框架,旨在将多模态模型的能力从基础的视觉感知,推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

加载中...
GLM-4.1V-Thinking是智谱AI(Zhipu AI)与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代,而是通过一个以“推理为中心”的全新训练框架,旨在将多模态模型的能力从基础的视觉感知,推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

本次发布的模型有2个版本,分别是基础版本的GLM-4.1V-Base和带推理能力的GLM-4.1V-Thinking。
GLM-4.1V-Thinking 的发布并非孤立事件,它伴随着一个基础模型 GLM-4.1V-9B-Base 共同开源。也是智谱训练模型的一个顺序。首先,智谱构建一个潜力巨大的视觉语言基础模型GLM-4.1V-9B-Base,再通过精细化的对齐和强化学习,充分释放其在复杂任务上的推理潜能。
该模型的核心亮点可以概括为以下几个方面:
GLM-4.1V-Thinking 在横跨8大类、28个主流多模态基准测试中的表现非常惊喜。

从这个评测结果数据中,我们可以看到下面几个关键情况:
智谱开源的这个多模态推理大模型一个很重要的创新是引入了**可扩展强化学习与课程采样(Reinforcement Learning with Curriculum Sampling, RLCS)**机制,我们简单介绍一下。
传统的多模态模型在经过监督微调(SFT)后,虽然能理解指令并生成内容,但在处理需要多步骤、长链条思考的复杂问题时,往往力不从心。智谱AI认为SFT阶段的核心作用并非注入新知识,而是将模型的输出格式与人类期望的“思考过程(<think>)+最终答案(<answer>)”对齐。这一步仅仅是“扶上马”。
要让模型学会如何“跑得好、跑得远”,就需要强化学习(RL)阶段。RL通过一个精密的奖励系统,对模型的每一步思考和最终答案进行评估和反馈,引导模型自主探索更优的解题路径,从而真正提升逻辑推理的质量和准确性。
强化学习的挑战在于效率和稳定性。如果训练样本过于简单,模型学不到新东西;如果过于困难,模型又会因频繁受挫而难以收敛。RLCS 正是为此而设计。
该机制巧妙地融合了“课程学习”(Curriculum Learning)的思想,即由易到难地安排学习内容。它在训练过程中实时评估每个样本对于当前模型的难度,并动态调整采样策略:
通过这种动态的“因材施教”,RLCS 显著提升了训练效率和模型的性能上限。技术报告中的数据显示,在引入RL后,模型在多个任务上的准确率获得了高达 +7.3% 的巨幅提升,直观地证明了该框架的有效性。

上图清晰展示了,相较于仅经过SFT的模型,增加了RL训练后,模型在各个维度的能力均得到了实质性增强。
GLM-4.1V-Thinking 的发布,为多模态领域的研究和应用注入了新的活力。最关键的是,这两个模型都是MIT开源协议开源的,意味着可以完全免费商用!且消费级显卡也能部署!(18GB显存以上,量化后可以期待更低显存资源)
关于GLM-4.1V-9B模型的开源地址和在线演示地址可以参考DataLearnerAI的大模型信息卡:
GLM-4.1V-9B-Thinking:https://www.datalearner.com/ai-models/pretrained-models/GLM-4_1V-9B-Thinking GLM-4.1V-9B-Base:https://www.datalearner.com/ai-models/pretrained-models/GLM-4_1V-9B-Base
| 65.1 |
| 45.7* |
| 58.6 |
| 53.5* |
| 62.4 |
| 58.0 |
| 66.4* |
| MUIRBENCH | 74.7 | 53.2* | 51.4 | 56.8* | 64.8* | 62.9* | 69.7* |
| STEM | MMMU | 68.0 | 58.6 | 57.7 | 61.7* | 66.7 | 70.2 | 69.1* |
| MMMU-Pro | 57.1 | 38.3 | 42.1* | 45.5* | 53.1* | 51.1 | 54.6* |
| VideoMMMU | 61.0 | 47.4 | – | – | 43.3 | 60.2 | 61.2* |
| AI2D | 87.9 | 83.8* | 84.6 | 78.1* | 83.5 | 87.6* | 84.8* |
| MathVista | 80.7 | 68.2 | 71.5 | 71.3 | 81.5 | 74.8* | 64.0* |
| WeMath | 63.8 | 31.0* | 33.8 | 36.0* | 66.3 | 46.0* | 44.4* |
| OCR & Chart | ChartQAPro | 59.5 | 38.0* | 36.1* | 44.1* | 53.6* | 46.7* | 49.4* |
| ChartMuseum | 48.8 | 27.2* | 21.5* | 29.3* | 44.4* | 39.6* | 42.7* |
| OCRBench | 84.2 | 84.5* | 87.7 | 78.7* | 86.6 | 85.1* | 81.1* |
| Long Document | MMLongBench-Doc | 42.4 | 25.1* | 20.4* | 35.1 | 24.9* | 35.2* | 41.0* |
| Visual Grounding | RefCOCO-avg (val) | 87.4 | 87.1† | 88.7 | – | 89.6 | 90.2† | – |
| GUI Agents | OSWorld | 14.9 | 1.9* | 1.4* | 8.2 | 1.9* | 8.8 | 5.0† |
| AndroidWorld | 41.7 | 27.6† | 1.9* | – | 10.8* | 35.0 | 34.5† |
| WebVoyageSom | 69.0 | 14.1* | 19.5* | 1.8* | 34.0* | 40.4* | 59.4* |
| Webquest-SingleQA | 72.1 | 53.5* | 39.3* | 56.8* | 64.0* | 60.5* | 57.0* |
| Webquest-MultiQA | 54.7 | 39.4* | 26.4* | 42.0* | 47.5* | 52.1* | 52.8 |
| Coding | Design2Code | 64.7 | 29.1* | 15.3* | 38.8* | 28.7* | 41.9* | 35.3* |
| Flame-VLM-Code | 72.5 | 25.0* | 11.3* | 36.3* | 8.8* | 46.3* | 75.0* |
| Video Understanding | VideoMME (w/o) | 68.2 | 65.1 | 66.7 | 67.8 | 67.4 | 73.3 | 71.9 |
| VideoMME (w/) | 73.6 | 71.6 | 68.9 | 72.6 | 72.8* | 79.1 | 77.2 |
| MMVU | 59.4 | 50.1 | – | – | 52.4* | 62.9 | 61.4* |
| LVBench | 45.1 | 45.3 | – | 37.1* | 47.3 | 48.9 |
| MotionBench | 59.0 | – | – | 48.4* | – | 58.0* |