C4

C4AI Aya Vision 32B

多模态大模型

C4AI Aya Vision 32B

发布时间: 2025-03-04 384

模型参数(Parameters)
320.0
最高上下文长度(Context Length)
16K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

16K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2025-03-04

模型预文件大小

64GB

开源和体验地址

代码开源状态
预训练权重开源
CC-BY-NC 4.0 - 不可以商用
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

C4AI Aya Vision 32B模型在各大评测榜单的评分

评测基准 MMLU
模式 / 类型
normal / 知识问答
评测结果

72.14

评测基准 MMLU Pro
模式 / 类型
normal / 知识问答
评测结果

47.16

评测基准 HumanEval
模式 / 类型
normal / 代码生成
评测结果

62.2

评测基准 MBPP
模式 / 类型
normal / 代码生成
评测结果

70.43

评测基准 MATH
模式 / 类型
normal / 数学推理
评测结果

69.3

评测基准 GPQA Diamond
模式 / 类型
normal / 常识推理
评测结果

33.84

评测基准 SimpleQA
模式 / 类型
normal / 真实性评估
评测结果

7.65

评测基准 GPQA
模式 / 类型
normal / 知识问答
评测结果

34.38

发布机构

模型介绍

随着多模态AI模型的兴起,能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术,为开源权重模型树立了新的标杆。


Aya Vision 32B概述

Aya Vision 32B是Aya Vision家族的一部分,家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言,在需要视觉和文本理解的任务中表现出色,例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse,通过引入先进的视觉语言技术进一步提升。


Aya Vision 32B主要特点

  • 多语言支持:Aya Vision 32B经过23种语言的训练,使其成为可用的最全面的多语言视觉语言模型之一。
  • 视觉语言对齐:该模型采用两阶段训练过程。第一阶段对齐视觉和语言表示,第二阶段在多样的多模态数据集上进行监督微调。
  • 合成注释和数据扩展:Cohere For AI通过生成英文的合成注释,将其翻译成目标语言,并重新措辞以提高质量,从而增强多语言覆盖范围。
  • 动态图像处理:Aya Vision 32B可以通过动态调整和拼接图像大小来处理任意分辨率的图像,提取详细的视觉特征。
  • 像素混洗下采样:为了提高效率,该模型在不牺牲性能的情况下将图像令牌压缩了4倍。
  • 多模态模型融合:通过将微调后的视觉语言模型与预训练的语言模型融合,Aya Vision 32B在文本和图像任务中均达到了最新的性能水平。


Aya Vision 32B性能表现

Aya Vision 32B的性能超过了许多更大的模型,如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B,在AyaVisionBench上胜率为50%到64%,在mWildVision上胜率为52%到72%,覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。


Aya Vision 32B的应用

Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景,包括:

  • 多语言视觉问答
  • 跨语言图像描述
  • 多语言光学字符识别(OCR)
  • 图表和图形理解
  • 从截图生成代码
  • 该模型还被集成到WhatsApp等平台中,为全球用户带来先进的视觉语言功能。


开放访问和社区合作

C4AI Aya Vision 32B以开源权重发布,促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架,鼓励社区推动视觉语言理解的界限。


不过需要注意的是,该模型的开源协议是非商用授权,只能用于研究。



关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat