CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言
564 阅读
Cohere For AI 推出了 Aya Vision 系列,这是一组包含 80 亿(8B)和 320 亿(32B)参数的视觉语言模型(VLMs)。这些模型针对多模态AI系统中的多语言性能挑战,支持23种语言。Aya Vision 基于 Aya Expanse 语言模型,并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

Aya Vision的主要特点
- 多语言支持:覆盖23种语言,通过数据增强技术提升对弱势语言的性能。
- 多模态能力:支持图像描述生成、视觉问答(VQA)、文本生成以及图像到文本的翻译等任务。
- 模型规模:提供两种配置——Aya Vision 8B 和 Aya Vision 32B,在性能与计算效率之间提供不同的平衡选择。
- 动态图像分辨率处理:自动调整并将高分辨率图像分割为更小的部分,以提取更详细的图像特征。
- :通过4倍压缩图像tokens,降低计算成本,同时保留关键信息。
