C4AI Aya Vision 32B（C4AI Aya Vision 32B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

C4

C4AI Aya Vision 32B

C4AI Aya Vision 32B

发布时间: 2025-03-04更新于: 2025-03-04 23:04:13642

在线体验GitHub Hugging Face Compare

模型参数

320.0亿

上下文长度

16K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

C4AI Aya Vision 32B

模型基本信息

推理过程

不支持

上下文长度

16K tokens

最大输出长度

暂无数据

模型类型

多模态大模型

发布时间

2025-03-04

模型文件大小

C4AI Aya Vision 32B

开源和体验地址

代码开源状态

预训练权重开源

CC-BY-NC 4.0- 不可以商用

GitHub 源码

https://github.com/huggingface/blog/blob/main/aya-vision.md

Hugging Face

https://huggingface.co/CohereForAI/aya-vision-32b

C4AI Aya Vision 32B

官方介绍与博客

官方论文

A Deepdive into Aya Vision: Advancing the Frontier of Multilingual Multimodality

DataLearnerAI博客

暂无介绍博客

C4AI Aya Vision 32B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

C4AI Aya Vision 32B

评测结果

当前筛选暂无评测数据。

查看评测深度分析与其他模型对比

C4AI Aya Vision 32B

发布机构

CohereAI

查看发布机构详情

C4AI Aya Vision 32B

模型解读

随着多模态AI模型的兴起，能够在不同语言之间无缝集成视觉和语言理解的系统需求变得越来越重要。由Cohere For AI开发的C4AI Aya Vision 32B模型在应对这一挑战方面迈出了重要一步。这个模型结合了多语言和多模态AI的最新技术，为开源权重模型树立了新的标杆。

Aya Vision 32B概述

Aya Vision 32B是Aya Vision家族的一部分，家族中还包括更紧凑的Aya Vision 8B模型。Aya Vision 32B支持23种语言，在需要视觉和文本理解的任务中表现出色，例如图像描述、视觉问答和多语言文本生成。该模型基于高性能的多语言语言模型Aya Expanse，通过引入先进的视觉语言技术进一步提升。

Aya Vision 32B主要特点

多语言支持：Aya Vision 32B经过23种语言的训练，使其成为可用的最全面的多语言视觉语言模型之一。
视觉语言对齐：该模型采用两阶段训练过程。第一阶段对齐视觉和语言表示，第二阶段在多样的多模态数据集上进行监督微调。
合成注释和数据扩展：Cohere For AI通过生成英文的合成注释，将其翻译成目标语言，并重新措辞以提高质量，从而增强多语言覆盖范围。
动态图像处理：Aya Vision 32B可以通过动态调整和拼接图像大小来处理任意分辨率的图像，提取详细的视觉特征。
像素混洗下采样：为了提高效率，该模型在不牺牲性能的情况下将图像令牌压缩了4倍。
多模态模型融合：通过将微调后的视觉语言模型与预训练的语言模型融合，Aya Vision 32B在文本和图像任务中均达到了最新的性能水平。

Aya Vision 32B性能表现

Aya Vision 32B的性能超过了许多更大的模型，如Llama-3.2 90B Vision、Molmo 72B和Qwen2.5-VL 72B，在AyaVisionBench上胜率为50%到64%，在mWildVision上胜率为52%到72%，覆盖了23种语言。这突显了该模型在较小参数规模下的高效性和能力。

Aya Vision 32B的应用

Aya Vision 32B的多语言和多模态能力使其能够应用于广泛的场景，包括：

多语言视觉问答
跨语言图像描述
多语言光学字符识别（OCR）
图表和图形理解
从截图生成代码
该模型还被集成到WhatsApp等平台中，为全球用户带来先进的视觉语言功能。

开放访问和社区合作

C4AI Aya Vision 32B以开源权重发布，促进了多语言多模态AI的进一步研究和发展。随附的AyaVisionBench数据集提供了一个强大的评估框架，鼓励社区推动视觉语言理解的界限。

不过需要注意的是，该模型的开源协议是非商用授权，只能用于研究。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码