DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权

2025/07/02 21:11:34
616 views
GLM多模态大模型多模态推理大模型智谱AI

GLM-4.1V-Thinking是智谱AI(Zhipu AI)与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代,而是通过一个以“推理为中心”的全新训练框架,旨在将多模态模型的能力从基础的视觉感知,推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

智谱AI开源多模态推理大模型GLM-4.1V-Thinking
智谱AI开源多模态推理大模型GLM-4.1V-Thinking
  • GLM-4.1V-Thinking的核心亮点:推理为核,全面进化
  • GLM-4.1V-Thinking的实测结果接近Qwen2.5-VL-72B,部分指标超GPT-4o
  • 技术突破:可扩展强化学习框架(RLCS)详解
  • 为什么需要强化学习?
  • 核心机制:课程学习与课程采样(RLCS)
  • GLM-4.1V开源情况和总结

本次发布的模型有2个版本,分别是基础版本的GLM-4.1V-Base和带推理能力的GLM-4.1V-Thinking。

GLM-4.1V-Thinking的核心亮点:推理为核,全面进化

GLM-4.1V-Thinking 的发布并非孤立事件,它伴随着一个基础模型 GLM-4.1V-9B-Base 共同开源。也是智谱训练模型的一个顺序。首先,智谱构建一个潜力巨大的视觉语言基础模型GLM-4.1V-9B-Base,再通过精细化的对齐和强化学习,充分释放其在复杂任务上的推理潜能。

该模型的核心亮点可以概括为以下几个方面:

  • 卓越的通用推理能力:模型在多个需要深度推理的领域表现突出,可以解决科学、技术、工程和数学(STEM)问题,在长文档理解、图形用户界面(GUI)智能体交互以及多模态代码生成等复杂场景也有很好的效果。
  • 越级挑战的性能表现:作为一款9B参数规模的模型,GLM-4.1V-Thinking 在多达28个公开基准测试中,不仅全面优于同量级的开源模型,更在18个基准上取得了超越或持平于体量远大于自身的 Qwen2.5-VL-72B 的成绩。在部分高难度任务上,其表现甚至可以媲美甚至超越闭源标杆 GPT-4o。
  • 创新的“三段式”训练框架:模型并非依赖单一技术,而是构建了一套“大规模预训练 → 指令精调对齐 → 强化学习激发”的完整流程。这个框架系统性地解决了如何将模型的潜力转化为实际能力的行业难题。
  • 双模型开源的社区贡献:智谱AI不仅开源了最终性能强大的 GLM-4.1V-9B-Thinking,还提供了坚实的 GLM-4.1V-9B-Base 模型。这为研究者和开发者提供了绝佳的平台,既可以直接使用性能顶尖的模型,也可以在高质量的基座上进行二次开发和创新。

GLM-4.1V-Thinking的实测结果接近Qwen2.5-VL-72B,部分指标超GPT-4o

GLM-4.1V-Thinking 在横跨8大类、28个主流多模态基准测试中的表现非常惊喜。

TaskBenchmarkGLM-4.1V-9B-ThinkingQwen2.5-VL 7BInternVL3 9BKimi-VL A3B-ThinkingMiMo-VL 7B-RLQwen2.5-VL 72BGPT-4o 2024-11-20
General VQAMMBench-V1.1-EN85.882.781.771.6*79.4*88.084.4*
MMBench-V1.1-CN84.780.1*80.9*70.2*80.3*86.7*83.2*
MMStar72.963.966.362.3*69.3*70.866.2*
BLINK65.145.7*58.653.5*62.458.066.4*
MUIRBENCH74.753.2*51.456.8*64.8*62.9*69.7*
STEMMMMU68.058.657.761.7*66.770.269.1*
MMMU-Pro57.138.342.1*45.5*53.1*51.154.6*
VideoMMMU61.047.4––43.360.261.2*
AI2D87.983.8*84.678.1*83.587.6*84.8*
MathVista80.768.271.571.381.574.8*64.0*
WeMath63.831.0*33.836.0*66.346.0*44.4*
OCR & ChartChartQAPro59.538.0*36.1*44.1*53.6*46.7*49.4*
ChartMuseum48.827.2*21.5*29.3*44.4*39.6*42.7*
OCRBench84.284.5*87.778.7*86.685.1*81.1*
Long DocumentMMLongBench-Doc42.425.1*20.4*35.124.9*35.2*41.0*
Visual GroundingRefCOCO-avg (val)87.487.1†88.7–89.690.2†–
GUI AgentsOSWorld14.91.9*1.4*8.21.9*8.85.0†
AndroidWorld41.727.6†1.9*–10.8*35.034.5†
WebVoyageSom69.014.1*19.5*1.8*34.0*40.4*59.4*
Webquest-SingleQA72.153.5*39.3*56.8*64.0*60.5*57.0*
Webquest-MultiQA54.739.4*26.4*42.0*47.5*52.1*52.8
CodingDesign2Code64.729.1*15.3*38.8*28.7*41.9*35.3*
Flame-VLM-Code72.525.0*11.3*36.3*8.8*46.3*75.0*
Video UnderstandingVideoMME (w/o)68.265.166.767.867.473.371.9
VideoMME (w/)73.671.668.972.672.8*79.177.2
MMVU59.450.1––52.4*62.961.4*
LVBench45.145.3–37.1*47.348.9
MotionBench59.0––48.4*–58.0*
GLM4.1V-9B-Thinking模型与其它模型评测对比
GLM4.1V-9B-Thinking模型与其它模型评测对比

从这个评测结果数据中,我们可以看到下面几个关键情况:

  1. 对标同级开源模型:与相同参数规模的模型对比,GLM-4.1V-9B-Thinking 几乎在各个领域都实现了性能的全面引领。
  2. 实现越级性能:与参数量是其8倍的Qwen2.5-VL-72B相比,GLM-4.1V-Thinking在MMMU-Pro、ChartMuseum和MMLongBench-Doc等多个挑战性极高的基准上均大幅领先,充分展示了其卓越的效率和架构优势。
  3. 媲美闭源顶级模型:最令人瞩目的是,在MMStar、MUIRBENCH、MathVista等多个高难度学术和推理基准上,GLM-4.1V-Thinking的表现甚至超越了GPT-4o。这表明在特定复杂推理任务上,这意味着继续迭代升级,我们可能很快就有开源的媲美GPT-4o多模态理解能力的模型可用了,非常令人期待。

技术突破:可扩展强化学习框架(RLCS)详解

智谱开源的这个多模态推理大模型一个很重要的创新是引入了**可扩展强化学习与课程采样(Reinforcement Learning with Curriculum Sampling, RLCS)**机制,我们简单介绍一下。

为什么需要强化学习?

传统的多模态模型在经过监督微调(SFT)后,虽然能理解指令并生成内容,但在处理需要多步骤、长链条思考的复杂问题时,往往力不从心。智谱AI认为SFT阶段的核心作用并非注入新知识,而是将模型的输出格式与人类期望的“思考过程(<think>)+最终答案(<answer>)”对齐。这一步仅仅是“扶上马”。

要让模型学会如何“跑得好、跑得远”,就需要强化学习(RL)阶段。RL通过一个精密的奖励系统,对模型的每一步思考和最终答案进行评估和反馈,引导模型自主探索更优的解题路径,从而真正提升逻辑推理的质量和准确性。

核心机制:课程学习与课程采样(RLCS)

强化学习的挑战在于效率和稳定性。如果训练样本过于简单,模型学不到新东西;如果过于困难,模型又会因频繁受挫而难以收敛。RLCS 正是为此而设计。

该机制巧妙地融合了“课程学习”(Curriculum Learning)的思想,即由易到难地安排学习内容。它在训练过程中实时评估每个样本对于当前模型的难度,并动态调整采样策略:

  1. 降低简单样本权重:对于模型已经能轻松解决的“送分题”,降低其出现的概率,避免计算资源浪费。
  2. 提升中等难度样本权重:重点关注那些处于模型能力“甜点区”的题目,即模型需要努力思考才能解决的问题,这是学习效率最高的区域。
  3. 暂时搁置过难样本:对于远超模型当前能力的“登天题”,也暂时降低其权重,待模型能力提升后再进行挑战。

通过这种动态的“因材施教”,RLCS 显著提升了训练效率和模型的性能上限。技术报告中的数据显示,在引入RL后,模型在多个任务上的准确率获得了高达 +7.3% 的巨幅提升,直观地证明了该框架的有效性。

图1:强化学习(RL)带来的显著性能增益(图片来源:原始论文)

上图清晰展示了,相较于仅经过SFT的模型,增加了RL训练后,模型在各个维度的能力均得到了实质性增强。

GLM-4.1V开源情况和总结

GLM-4.1V-Thinking 的发布,为多模态领域的研究和应用注入了新的活力。最关键的是,这两个模型都是MIT开源协议开源的,意味着可以完全免费商用!且消费级显卡也能部署!(18GB显存以上,量化后可以期待更低显存资源)

关于GLM-4.1V-9B模型的开源地址和在线演示地址可以参考DataLearnerAI的大模型信息卡:

GLM-4.1V-9B-Thinking:https://www.datalearner.com/ai-models/pretrained-models/GLM-4_1V-9B-Thinking GLM-4.1V-9B-Base:https://www.datalearner.com/ai-models/pretrained-models/GLM-4_1V-9B-Base

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • 重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!
  • 智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试
  • DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B
  • Google开源多模态大模型Gemma3n的正式版:重新定义端侧AI的多模态能力,10B(100亿)参数以下最强多模态大模型,一个月前的预览版正式转正
  • 阿里开源全模态大模型Qwen2.5-Omni-7B:支持文本、语音、视频、图像任意模态输入,可以实时生成文本或者语音,文本理解能力接近GPT-4o-mini,开源且免费商用
  • MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B:评测结果与GPT-4o-mini与Gemma 3 27B有来有回,开源且免费商用,支持24种语言
  • CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言
  • OpenAI发布的GPT-4o能力总结,数学推理能力超过所有模型,价格下降一半!

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署