GL

GLM-4.6V

多模态大模型GLM-VGLM-4.6V

GLM-4.6V 106B-A12B

发布时间: 2025-12-08更新于: 2026-06-14 23:13:20.198792
模型参数
1080亿
上下文长度
128K
中文支持
支持
推理能力

GLM-4.6V 106B-A12B 是由 智谱AI 发布的 AI 模型,发布时间为 2025-12-08,定位为 多模态大模型,参数规模约为 1080亿,上下文长度为 128K,采用 MIT License 许可,在 LiveBench 上取得 40.07 分。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GLM-4.6V

模型基本信息

推理过程
不支持
思考模式
常规模式
上下文长度
128K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
输入/输出模态
文本、图像 → 文本
发布时间
2025-12-08
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
1080亿 / 120亿
知识截止
暂无数据
GLM-4.6V

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
在线体验
暂无在线体验地址
GLM-4.6V

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
GLM-4.6V

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
GLM-4.6V

评测结果

GLM-4.6V 当前已收录的代表性评测结果包括 LiveBench(109 / 115,得分 40.07)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveBench
常规模式
40.07
109 / 115

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

GLM-4.6V

发布机构

GLM-4.6V 106B-A12B

模型解读

概览与定位

GLM-4.6V 是 Zhipu AI(Z.ai)面向视觉-语言任务的新迭代多模态大模型系列,相对 GLM-4.5V 进行了全面升级。官方介绍显示,该系列在训练阶段将上下文规模扩展至 128K,并首次引入原生的 Function Calling,用于跨“视觉感知”与“可执行动作”的闭环,多用于真实业务场景中的多模态 Agent。参见 Z.ai 开发者文档Hugging Face 模型卡

架构与技术规格

该版本在公开页面被标注为约 106–108B 参数规模的多模态模型(组织页显示 108B;新闻稿与简介多以“106B-A12B”表述,对应稀疏 MoE 架构下约 12B 激活参数规模)。训练期间上下文为 128K(训练设置),适配长文档与多文档场景。详见 Hugging Face文档

模态与核心能力

该模型支持图像+文本输入、文本输出,强调多模态文档理解(版面结构、图表、表格、图形联合解析)、前端界面复刻与视觉编辑,以及在生成过程中进行跨模态的内容组织。引入原生 Function Calling 后,可将视觉输入直接作为工具参数参与调用,支持在视觉-检索-执行链路中的工具使用闭环。详见 官方文档

性能与基准

官方展示其在同等参数量级上的多模态理解达到领先水平(SoTA @ similar scale),并给出若干基准与示例;具体得分以模型卡/文档附图为准。参见 模型卡

应用与限制

推荐应用包括多模态文档理解、UI 还原与编辑、图表/检索-增强内容生产,以及需要视觉驱动工具使用的业务型 Agent。模型卡同时提示若干局限(如纯文本 QA 仍有改进空间、复杂提示下可能出现重复思考等),详见 模型卡

获取方式与许可

权重已在 Hugging Face 发布,许可为 MIT;推理可使用 vLLM 或 SGLang,开发者文档与示例代码已提供。参见 Hugging Face文档GLM-V GitHub

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码