DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogGLM-4.6V
GL

GLM-4.6V

GLM-4.6V 106B-A12B

Release date: 2025-12-08578
Live demoGitHubHugging FaceCompare
Parameters
1080.0亿
Context length
128K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GLM-4.6V

Model basics

Reasoning traces
Not supported
Thinking modes
Thinking Level · Off
Context length
128K tokens
Max output length
No data
Model type
No data
Release date
2025-12-08
Model file size
No data
MoE architecture
Yes
Total params / Active params
1080.0B / 120B
Knowledge cutoff
No data
GLM-4.6V

Open source & experience

Code license
MIT License
Weights license
MIT License- 免费商用授权
GitHub repo
https://github.com/zai-org/GLM-V
Hugging Face
https://huggingface.co/zai-org/GLM-4.6V
Live demo
No live demo
GLM-4.6V

Official resources

Paper
GLM-4.6V - Z.AI Developer Document
DataLearnerAI blog
No blog post yet
GLM-4.6V

API details

API speed
3/5
No public API pricing yet.
GLM-4.6V

Benchmark Results

No benchmark data to show.
GLM-4.6V

Publisher

智谱AI
智谱AI
View publisher details
GLM-4.6V 106B-A12B

Model Overview

概览与定位

GLM-4.6V 是 Zhipu AI(Z.ai)面向视觉-语言任务的新迭代多模态大模型系列,相对 GLM-4.5V 进行了全面升级。官方介绍显示,该系列在训练阶段将上下文规模扩展至 128K,并首次引入原生的 Function Calling,用于跨“视觉感知”与“可执行动作”的闭环,多用于真实业务场景中的多模态 Agent。参见 Z.ai 开发者文档 与 Hugging Face 模型卡。

架构与技术规格

该版本在公开页面被标注为约 106–108B 参数规模的多模态模型(组织页显示 108B;新闻稿与简介多以“106B-A12B”表述,对应稀疏 MoE 架构下约 12B 激活参数规模)。训练期间上下文为 128K(训练设置),适配长文档与多文档场景。详见 Hugging Face 与 文档。

模态与核心能力

该模型支持图像+文本输入、文本输出,强调多模态文档理解(版面结构、图表、表格、图形联合解析)、前端界面复刻与视觉编辑,以及在生成过程中进行跨模态的内容组织。引入原生 Function Calling 后,可将视觉输入直接作为工具参数参与调用,支持在视觉-检索-执行链路中的工具使用闭环。详见 官方文档。

性能与基准

官方展示其在同等参数量级上的多模态理解达到领先水平(SoTA @ similar scale),并给出若干基准与示例;具体得分以模型卡/文档附图为准。参见 模型卡。

应用与限制

推荐应用包括多模态文档理解、UI 还原与编辑、图表/检索-增强内容生产,以及需要视觉驱动工具使用的业务型 Agent。模型卡同时提示若干局限(如纯文本 QA 仍有改进空间、复杂提示下可能出现重复思考等),详见 模型卡。

获取方式与许可

权重已在 Hugging Face 发布,许可为 MIT;推理可使用 vLLM 或 SGLang,开发者文档与示例代码已提供。参见 Hugging Face、文档 与 GLM-V GitHub。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码