CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言
367 views
加载中...
Follow DataLearner WeChat for the latest AI updates

Cohere For AI 推出了 Aya Vision 系列,这是一组包含 80 亿(8B)和 320 亿(32B)参数的视觉语言模型(VLMs)。这些模型针对多模态AI系统中的多语言性能挑战,支持23种语言。Aya Vision 基于 Aya Expanse 语言模型,并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

Aya Vision 模型采用模块化架构,包含以下组件:
Aya Vision 在两个多语言基准上进行了评估:
Aya Vision 模型在多种任务和语言上,始终优于更大的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B。
Aya Vision 8B 和 32B 都以开源权重形式发布在 Hugging Face 上,以支持研究与开发。
不过需要注意的是,这两个开源模型都不是商用授权的,可以用于研究和测试。
Aya Vision 32B模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/aya-vision-32b Aya Vision 8B模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/aya-vision-8b