GLM-Image

Model Overview

GLM-Image 是智谱 AI（Z.ai）开源的一个图像生成大模型。官方称这是第一个“工业级的离散自回归图像生成模型”，它结合自回归生成器和扩散解码器，专为高保真细节和密集知识整合的任务设计。模型总参数规模 16 亿（自回归生成器 9B + 扩散解码器 7B），官方提供了量化版本，量化后可在消费级显卡上运行。

模型架构与关键特征

GLM-Image 采用混合架构，将语义理解与细节生成解耦：

自回归生成器：90 亿参数，从 GLM-4-9B-0414 初始化。主要处理低频语义信号，生成约 256 个紧凑视觉令牌，随后扩展到 1K–4K 令牌，支持最高 2048px 分辨率输出。词汇表扩展了视觉令牌，支持文本与图像交织（MRoPE 位置编码）。
扩散解码器：70 亿参数，单流 DiT 结构（受 CogView4 启发），使用流匹配（flow matching）精炼高频细节。内置轻量级 Glyph-byT5 字形编码器，显著提升文本尤其是中文渲染质量。

模型支持中英文多语言，在 MIT 许可下开源，通过 Diffusers 以 Safetensors 格式发布。完整 fp16/bf16 推理需要 ≥80GB VRAM（或多卡），但官方和社区已提供量化版本（例如 AWQ/GGUF），可显著降低显存需求，支持消费级显卡运行。

默认采样参数：do_sample=True、temperature=0.9、top_p=0.75。未来计划集成 vLLM-Omni 和 SGLang 以进一步提升推理速度。

技术细节

视觉令牌化

采用 semantic-VQ 令牌化，在信息完整性和语义相关性上优于传统 VQVAE 和 1D 向量方法，训练损失更低（~3 vs ~7）。

自回归预训练

从 GLM-4-9B 初始化，冻结文本嵌入，新增视觉嵌入和视觉 LM Head。多阶段分辨率训练（256px → 512px → 混合 512-1024px），使用 XOmni 16× 压缩令牌器。高分辨率阶段采用渐进生成策略（先用下采样图像生成前 256 令牌引导布局）。

扩散解码器

使用流匹配，条件输入为投影后的 semantic-VQ 令牌 + VAE 潜在变量（通道维度拼接），无需额外文本编码器。文本渲染时拼接 Glyph-byT5 字形嵌入。图像编辑时同时使用参考图像的 semantic-VQ 令牌和 VAE 潜在变量。采用块因果注意力（类似 ControlNet），兼顾效率与细节保留。

后训练

解耦强化学习：自回归部分用 GRPO（低频奖励：HPSv3 美学、OCR 文本准确、VLM 语义）；解码器用 flow-GRPO（高频奖励：LPIPS 感知相似、OCR、手部细节评分）。

支持任务与能力

文本到图像生成：适合知识密集、复杂信息表达场景。
图像到图像任务：编辑、风格迁移、身份保留、多主体一致性，支持多参考图像条件。

在文本渲染和知识密集任务中表现较强，与主流潜在扩散模型在一般质量上相当，但在特定场景（如长文本、中文渲染）有优势。

基准表现

GLM-Image在各项评测上表现都很不错，几乎和闭源模型不相上下。官方给出了一些实际的生成图片的例子，如下图（有压缩，原图比较大，可以去官网）：

可以看到，中文字体相当可以。除了官网给的图以外，GLM-Image在各项评测上效果也很好，例如在文本渲染评测中，官方给了2个结果，英文上与Qwen-Image不相上下，但是中文好过Qwen-Image-2512

CVTG-2k：NED 0.9557、CLIPScore 0.7877、单词准确率（2-5 区域）平均 0.9116，在开源模型中排名靠前，部分指标超越闭源 GPT Image 1 [High]。
LongText-Bench：EN 0.9524、ZH 0.9788，在中文长文本渲染上表现突出。仅低于Seedream 4.5模型。

而在其它的综合基准测试中，效果也很不错：

OneIG_EN/ZH：总体得分 0.52-0.53 左右，文本维度接近满分，但推理、风格、多样性相对较弱。
DPG Bench：84.78，关系/实体识别较强。
TIFF Bench：短/长提示均 ~81 分，优于 DALL-E 3 和 FLUX.1 [dev]，但略低于部分最新开源模型（如 Nano Banana 2.0、Seedream 4.5）。

总体来看，在开源模型中，GLM-Image 在文本准确性和知识密集任务上具有竞争力。

GLM-Image 的混合架构有效弥补了纯扩散模型在知识密集和文本渲染上的短板，在开源模型中属于文本/知识任务表现较强的选择之一。16 亿总参数规模适中，量化后对硬件要求大幅降低，提升了实际可落地性。但在通用美学、推理能力、多样性等方面，与部分最新开源或闭源模型仍有差距；完整精度推理仍需高端硬件。总体适合需要高信息密度和精准文本渲染的场景，未来推理优化空间较大。

GLM-Image

Model basics

Open source & experience

Official resources

API details

Benchmark Results

Publisher