C4AI Aya Vision 32B
C4AI Aya Vision 32B
模型参数
320.0亿
上下文长度
16K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
16K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
发布时间
2025-03-04
模型文件大小
64GB
MoE架构
否
总参数 / 激活参数
320.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
发布机构
CohereAI
查看发布机构详情 模型解读
随着多模态AI模型的兴起,能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术,为开源权重模型树立了新的标杆。
Aya Vision 32B概述
Aya Vision 32B是Aya Vision家族的一部分,家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言,在需要视觉和文本理解的任务中表现出色,例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse,通过引入先进的视觉语言技术进一步提升。
Aya Vision 32B主要特点
- 多语言支持:Aya Vision 32B经过23种语言的训练,使其成为可用的最全面的多语言视觉语言模型之一。
- 视觉语言对齐:该模型采用两阶段训练过程。第一阶段对齐视觉和语言表示,第二阶段在多样的多模态数据集上进行监督微调。
- 合成注释和数据扩展:Cohere For AI通过生成英文的合成注释,将其翻译成目标语言,并重新措辞以提高质量,从而增强多语言覆盖范围。
- 动态图像处理:Aya Vision 32B可以通过动态调整和拼接图像大小来处理任意分辨率的图像,提取详细的视觉特征。
- 像素混洗下采样:为了提高效率,该模型在不牺牲性能的情况下将图像令牌压缩了4倍。
- 多模态模型融合:通过将微调后的视觉语言模型与预训练的语言模型融合,Aya Vision 32B在文本和图像任务中均达到了最新的性能水平。
Aya Vision 32B性能表现
Aya Vision 32B的性能超过了许多更大的模型,如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B,在AyaVisionBench上胜率为50%到64%,在mWildVision上胜率为52%到72%,覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。

Aya Vision 32B的应用
Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景,包括:
- 多语言视觉问答
- 跨语言图像描述
- 多语言光学字符识别(OCR)
- 图表和图形理解
- 从截图生成代码
- 该模型还被集成到WhatsApp等平台中,为全球用户带来先进的视觉语言功能。
开放访问和社区合作
C4AI Aya Vision 32B以开源权重发布,促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架,鼓励社区推动视觉语言理解的界限。
不过需要注意的是,该模型的开源协议是非商用授权,只能用于研究。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
