智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权

标签:#CogView##CogView4-6B##文本生成图像##文生图大模型# 时间:2025/03/05 12:50:12 作者:小木

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B,支持生成的图像中加入文字,文字效果自然融入图像中,且该模型支持支持宽高范围512px至2048px内的任意尺寸图像(也有限制,正文解释)。


CogView4-6B生成的图像

[TOC]

CogView4-6B模型特点

作为首个支持原生汉字生成的开源模型,CogView4-6B有着非常不错的特点,60亿参数规模意味着仅需12G显存即可使用,量化后显存占用还会更低。

此外,CogView4-6B模型的优点也十分明显,主要包括:

  • 中文场景突破:通过双语GLM-4编码器与中文图文联合训练,模型不仅能理解”野径云俱黑”等古诗意境,还可将汉字自然融入海报、漫画等视觉元素,解决中文创意产业的核心痛点;

  • 动态生成自由:支持512-2048px范围内任意分辨率图像输出。不过需要注意的是,必须是32的整数倍,最多像素数量不超过2^21。用户可基于完整故事脚本生成四格漫画等复杂叙事图像;

  • CogView4-6B免费开源:作为Apache 2.0协议下首个图像生成模型,提供从Hugging Face到ModelScope的全平台支持,智谱AI此次发布的CogView4-6B可以自由免费商用,没有限制门槛。

此外,官方透露即将推出ControlNet插件与微调工具包,降低商用落地门槛。

CogView4-6B模型技术架构

CogView4-6B在架构设计、扩散建模、位置编码和训练优化方面都进行了重要升级,使其在生成高质量、可控性强的图像方面具备更好的表现。总结如下:

1. 任意长度文本与分辨率自适应

CogView4 实现了 任意长度的文本描述(caption)与任意分辨率图像的混合训练,这不仅让用户的创作更加自由,也优化了模型的训练效率。相比于传统固定长度的文本输入方案,CogView4 支持动态长度输入,减少了不必要的计算开销,使得训练更加高效。

2.二维旋转位置编码(2D RoPE)

在图像生成任务中,CogView4 采用 二维旋转位置编码(2D RoPE) 来建模图像的位置信息。RoPE(Rotary Position Embedding)是一种相对位置编码方法,能够增强模型对空间关系的理解。CogView4 进一步利用 插值位置编码(Interpolated RoPE),使得模型能够适应不同分辨率的图像,从而在多个尺度上都能保持一致的生成质量。

3.Flow-matching 扩散建模

在扩散模型的实现上,CogView4 采用了 Flow-matching 方案 进行图像生成建模。Flow-matching 是一种新的扩散建模方法,相比于传统的去噪扩散概率模型(DDPM),它能够更高效地学习数据分布,并减少计算开销。此外,CogView4 结合 参数化的线性动态噪声规划,使得不同分辨率图像能够适配最优的信噪比,提高最终图像质量。

5.多阶段训练策略

为了确保模型能够兼顾泛化能力和高质量生成,CogView4 采用了 多阶段训练策略,具体包括以下几个步骤:

  1. 基础分辨率训练:首先在标准分辨率图像上进行预训练,学习基本的文本-图像映射关系。
  2. 泛分辨率训练:引入不同尺度的图像数据,使模型具备适应多种分辨率的能力。
  3. 高质量数据微调:使用更高质量的图像数据进行精调,以提升图像的细节和美感。
  4. 人类偏好对齐训练:结合人类反馈数据,使得模型生成的图像更符合用户的审美和意图。

从文本处理的角度,CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限,同时减少训练过程中的 token 冗余。在训练过程中,CogView4 允许 caption 的平均长度在 200-300 token 之间,相比于传统固定 512 token 方案,减少了约 50% 的 token 冗余

此外,在模型的 递进训练阶段,CogView4 通过优化数据流和计算分配,实现了 5%-30% 的训练效率提升,进一步降低了训练成本,使得大规模文本-图像生成模型更加可行。

CogView4-6B的评测结果

CogView-6B在权威测试中展现全面优势:

语义理解:DPG-Bench综合得分85.13(开源SOTA),尤其在属性建模(91.17)与空间关系(91.14)任务中超越DALL-E 3(88.39/90.58);

中文生成:汉字识别F1值达0.6168,较行业主流模型提升2.1倍,成功将”江船火独明”等复杂诗句转化为连贯画面;

系统效能:2048×2048分辨率下显存占用仅14GB(优化后),较传统方案降低67%,支持消费级显卡部署。

CogView4-6B的实际生成的图片结果

本文的封面图就是CogView4-6B的实际测试结果,可以看到,文本是非常正确的,这在此前的模型中可能没有这么好的效果。

下图是另一个测试结果:


CogView4-6B的开源情况和其它信息

本次智谱AI开源的CogView4-6B是以Apache2.0协议开源。意味着没有商用限制,可以免费使用。

关于CogView4-6B模型的在线演示地址和其它信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/CogView4-6B

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送