AnyText - AnyText

模型详细情况和参数

AnyText

模型全称
AnyText
模型简称
AnyText
模型类型
视觉大模型
发布日期
2023-11-06
预训练文件大小
5.34GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
5.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

AnyText 简介

AnyText主要基于扩散(Diffusion)模型,包含两个核心模块:隐空间辅助模块(Auxiliary Latent Module)和文本嵌入模块(Text Embedding Module)。其中,隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以进一步提升文字书写精度。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

AnyText所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

AnyText相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源