AnyText

Name: AnyText
Author: 阿里巴巴

视觉大模型

AnyText

发布时间: 2023-11-06更新于: 2023-12-31 22:47:10.595559

在线体验GitHub Hugging Face Compare

模型参数

5亿

上下文长度

中文支持

支持

推理能力

AnyText 是由阿里巴巴发布的 AI 模型，发布时间为 2023-11-06，定位为视觉大模型，参数规模约为 5亿，上下文长度为 2K，模型文件大小约 5.34GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

AnyText

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

视觉大模型

输入/输出模态

暂无数据

发布时间

2023-11-06

模型文件大小

5.34GB

MoE架构

否

总参数 / 激活参数

5亿 / 不涉及

知识截止

暂无数据

AnyText

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/tyxsspa/AnyText

Hugging Face

https://modelscope.cn/models/damo/cv_anytext_text_generation_editing/summary

在线体验

暂无在线体验地址

AnyText

官方介绍与博客

官方论文

AnyText: Multilingual Visual Text Generation And Editing

DataLearnerAI博客

暂无介绍博客

AnyText

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

AnyText

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

AnyText

发布机构

阿里巴巴

查看发布机构详情

AnyText

模型解读

AnyText主要基于扩散（Diffusion）模型，包含两个核心模块：隐空间辅助模块（Auxiliary Latent Module）和文本嵌入模块（Text Embedding Module）。其中，隐空间辅助模块对三类辅助信息（字形、文字位置和掩码图像）进行编码并构建隐空间特征图像，用来辅助视觉文字的生成；文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦，使用图像编码模块单独提取字形信息后再与语义信息做融合，既有助于文字的书写精度，也有利于提升文字与背景的一致性。训练阶段，除了使用扩散模型常用的噪声预测损失，我们还增加了文本感知损失，在图像空间对每个生成文本区域进行像素级的监督，以进一步提升文字书写精度。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送