GLM-Image
GLM-Image is an AI model published by 智谱AI, released on 2026-01-14, for 视觉大模型, with 160.0B parameters, and 4K tokens context length, requiring about 35.8GB storage, under the MIT License license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Image | -- | 0.015 |
GLM-Image 是智谱 AI(Z.ai)开源的一个图像生成大模型。官方称这是第一个“工业级的离散自回归图像生成模型”,它结合自回归生成器和扩散解码器,专为高保真细节和密集知识整合的任务设计。模型总参数规模 16 亿(自回归生成器 9B + 扩散解码器 7B),官方提供了量化版本,量化后可在消费级显卡上运行。
GLM-Image 采用混合架构,将语义理解与细节生成解耦:
模型支持中英文多语言,在 MIT 许可下开源,通过 Diffusers 以 Safetensors 格式发布。完整 fp16/bf16 推理需要 ≥80GB VRAM(或多卡),但官方和社区已提供量化版本(例如 AWQ/GGUF),可显著降低显存需求,支持消费级显卡运行。
默认采样参数:do_sample=True、temperature=0.9、top_p=0.75。未来计划集成 vLLM-Omni 和 SGLang 以进一步提升推理速度。
采用 semantic-VQ 令牌化,在信息完整性和语义相关性上优于传统 VQVAE 和 1D 向量方法,训练损失更低(~3 vs ~7)。
从 GLM-4-9B 初始化,冻结文本嵌入,新增视觉嵌入和视觉 LM Head。多阶段分辨率训练(256px → 512px → 混合 512-1024px),使用 XOmni 16× 压缩令牌器。高分辨率阶段采用渐进生成策略(先用下采样图像生成前 256 令牌引导布局)。
使用流匹配,条件输入为投影后的 semantic-VQ 令牌 + VAE 潜在变量(通道维度拼接),无需额外文本编码器。文本渲染时拼接 Glyph-byT5 字形嵌入。图像编辑时同时使用参考图像的 semantic-VQ 令牌和 VAE 潜在变量。采用块因果注意力(类似 ControlNet),兼顾效率与细节保留。
解耦强化学习:自回归部分用 GRPO(低频奖励:HPSv3 美学、OCR 文本准确、VLM 语义);解码器用 flow-GRPO(高频奖励:LPIPS 感知相似、OCR、手部细节评分)。
在文本渲染和知识密集任务中表现较强,与主流潜在扩散模型在一般质量上相当,但在特定场景(如长文本、中文渲染)有优势。
GLM-Image在各项评测上表现都很不错,几乎和闭源模型不相上下。官方给出了一些实际的生成图片的例子,如下图(有压缩,原图比较大,可以去官网):

可以看到,中文字体相当可以。除了官网给的图以外,GLM-Image在各项评测上效果也很好,例如在文本渲染评测中,官方给了2个结果,英文上与Qwen-Image不相上下,但是中文好过Qwen-Image-2512
而在其它的综合基准测试中,效果也很不错:
总体来看,在开源模型中,GLM-Image 在文本准确性和知识密集任务上具有竞争力。
GLM-Image 的混合架构有效弥补了纯扩散模型在知识密集和文本渲染上的短板,在开源模型中属于文本/知识任务表现较强的选择之一。16 亿总参数规模适中,量化后对硬件要求大幅降低,提升了实际可落地性。但在通用美学、推理能力、多样性等方面,与部分最新开源或闭源模型仍有差距;完整精度推理仍需高端硬件。总体适合需要高信息密度和精准文本渲染的场景,未来推理优化空间较大。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
