GL

GLM-Image

GLM-Image

发布时间: 2026-01-1483
模型参数
160.0亿
上下文长度
4K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
4K tokens
最大输出长度
2048 tokens
模型类型
视觉大模型
发布时间
2026-01-14
模型文件大小
35.8GB
MoE架构
总参数 / 激活参数
160.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权

官方介绍与博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
图片--0.015

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

GLM-Image 是智谱 AI(Z.ai)开源的一个图像生成大模型。官方称这是第一个“工业级的离散自回归图像生成模型”,它结合自回归生成器和扩散解码器,专为高保真细节和密集知识整合的任务设计。模型总参数规模 16 亿(自回归生成器 9B + 扩散解码器 7B),官方提供了量化版本,量化后可在消费级显卡上运行。


模型架构与关键特征

GLM-Image 采用混合架构,将语义理解与细节生成解耦:

  • 自回归生成器:90 亿参数,从 GLM-4-9B-0414 初始化。主要处理低频语义信号,生成约 256 个紧凑视觉令牌,随后扩展到 1K–4K 令牌,支持最高 2048px 分辨率输出。词汇表扩展了视觉令牌,支持文本与图像交织(MRoPE 位置编码)。
  • 扩散解码器:70 亿参数,单流 DiT 结构(受 CogView4 启发),使用流匹配(flow matching)精炼高频细节。内置轻量级 Glyph-byT5 字形编码器,显著提升文本尤其是中文渲染质量。

模型支持中英文多语言,在 MIT 许可下开源,通过 Diffusers 以 Safetensors 格式发布。完整 fp16/bf16 推理需要 ≥80GB VRAM(或多卡),但官方和社区已提供量化版本(例如 AWQ/GGUF),可显著降低显存需求,支持消费级显卡运行。

默认采样参数:do_sample=True、temperature=0.9、top_p=0.75。未来计划集成 vLLM-Omni 和 SGLang 以进一步提升推理速度。

技术细节

视觉令牌化

采用 semantic-VQ 令牌化,在信息完整性和语义相关性上优于传统 VQVAE 和 1D 向量方法,训练损失更低(~3 vs ~7)。

自回归预训练

从 GLM-4-9B 初始化,冻结文本嵌入,新增视觉嵌入和视觉 LM Head。多阶段分辨率训练(256px → 512px → 混合 512-1024px),使用 XOmni 16× 压缩令牌器。高分辨率阶段采用渐进生成策略(先用下采样图像生成前 256 令牌引导布局)。

扩散解码器

使用流匹配,条件输入为投影后的 semantic-VQ 令牌 + VAE 潜在变量(通道维度拼接),无需额外文本编码器。文本渲染时拼接 Glyph-byT5 字形嵌入。图像编辑时同时使用参考图像的 semantic-VQ 令牌和 VAE 潜在变量。采用块因果注意力(类似 ControlNet),兼顾效率与细节保留。

后训练

解耦强化学习:自回归部分用 GRPO(低频奖励:HPSv3 美学、OCR 文本准确、VLM 语义);解码器用 flow-GRPO(高频奖励:LPIPS 感知相似、OCR、手部细节评分)。

支持任务与能力

  • 文本到图像生成:适合知识密集、复杂信息表达场景。
  • 图像到图像任务:编辑、风格迁移、身份保留、多主体一致性,支持多参考图像条件。

在文本渲染和知识密集任务中表现较强,与主流潜在扩散模型在一般质量上相当,但在特定场景(如长文本、中文渲染)有优势。

基准表现

GLM-Image在各项评测上表现都很不错,几乎和闭源模型不相上下。官方给出了一些实际的生成图片的例子,如下图(有压缩,原图比较大,可以去官网):




可以看到,中文字体相当可以。除了官网给的图以外,GLM-Image在各项评测上效果也很好,例如在文本渲染评测中,官方给了2个结果,英文上与Qwen-Image不相上下,但是中文好过Qwen-Image-2512

  • CVTG-2k:NED 0.9557、CLIPScore 0.7877、单词准确率(2-5 区域)平均 0.9116,在开源模型中排名靠前,部分指标超越闭源 GPT Image 1 [High]。
  • LongText-Bench:EN 0.9524、ZH 0.9788,在中文长文本渲染上表现突出。仅低于Seedream 4.5模型。

而在其它的综合基准测试中,效果也很不错:

  • OneIG_EN/ZH:总体得分 0.52-0.53 左右,文本维度接近满分,但推理、风格、多样性相对较弱。
  • DPG Bench:84.78,关系/实体识别较强。
  • TIFF Bench:短/长提示均 ~81 分,优于 DALL-E 3 和 FLUX.1 [dev],但略低于部分最新开源模型(如 Nano Banana 2.0、Seedream 4.5)。

总体来看,在开源模型中,GLM-Image 在文本准确性和知识密集任务上具有竞争力。

GLM-Image 的混合架构有效弥补了纯扩散模型在知识密集和文本渲染上的短板,在开源模型中属于文本/知识任务表现较强的选择之一。16 亿总参数规模适中,量化后对硬件要求大幅降低,提升了实际可落地性。但在通用美学、推理能力、多样性等方面,与部分最新开源或闭源模型仍有差距;完整精度推理仍需高端硬件。总体适合需要高信息密度和精准文本渲染的场景,未来推理优化空间较大。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码