DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言

2025/03/04 23:24:06
367 views
AyaVisionCohereAI多模态大模型

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

开源模型进展迅猛!最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo!重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权Google开源多模态大模型Gemma3n的正式版:重新定义端侧AI的多模态能力,10B(100亿)参数以下最强多模态大模型,一个月前的预览版正式转正阿里开源全模态大模型Qwen2.5-Omni-7B:支持文本、语音、视频、图像任意模态输入,可以实时生成文本或者语音,文本理解能力接近GPT-4o-mini,开源且免费商用MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B:评测结果与GPT-4o-mini与Gemma 3 27B有来有回,开源且免费商用,支持24种语言OpenAI发布的GPT-4o能力总结,数学推理能力超过所有模型,价格下降一半!开源多模态大模型新选择:DeepSeekAI(深度求索科技)开源全新多模态大模型DeepSeek-VL模型,包含可在手机端运行的13亿规模tiny多模态模型。

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

Cohere For AI 推出了 Aya Vision 系列,这是一组包含 80 亿(8B)和 320 亿(32B)参数的视觉语言模型(VLMs)。这些模型针对多模态AI系统中的多语言性能挑战,支持23种语言。Aya Vision 基于 Aya Expanse 语言模型,并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

  • Aya Vision的主要特点
  • Aya Vision技术架构
  • Aya Vision 32B和Aya Vision 8B的评估结果
  • 5. 开源与社区集成

Aya Vision的主要特点

  • 多语言支持:覆盖23种语言,通过数据增强技术提升对弱势语言的性能。
  • 多模态能力:支持图像描述生成、视觉问答(VQA)、文本生成以及图像到文本的翻译等任务。
  • 模型规模:提供两种配置——Aya Vision 8B 和 Aya Vision 32B,在性能与计算效率之间提供不同的平衡选择。
  • 动态图像分辨率处理:自动调整并将高分辨率图像分割为更小的部分,以提取更详细的图像特征。
  • Pixel Shuffle Downsampling:通过4倍压缩图像tokens,降低计算成本,同时保留关键信息。

Aya Vision技术架构

Aya Vision 模型采用模块化架构,包含以下组件:

  • 视觉编码器:基于 SigLIP2-patch14-384,负责从图像输入中提取视觉特征。
  • 视觉语言连接器:将图像特征映射到语言模型的嵌入空间。
  • LLM 解码器:8B模型使用经过优化的 Cohere Command R7B,擅长指令跟随;32B模型则使用 Aya Expanse 32B,后者经过多语言多样化数据集的额外训练。
  • 训练过程:
    • 视觉语言对齐:通过冻结视觉和语言组件,训练视觉语言连接器。
    • 监督微调(SFT):在23种语言的多模态任务上联合训练连接器和语言模型。

Aya Vision 32B和Aya Vision 8B的评估结果

Aya Vision 在两个多语言基准上进行了评估:

  • AyaVisionBench:专为23种语言的视觉语言任务设计的自定义数据集,涵盖图像描述生成、OCR和文档理解等类别。
  • mWildVision:Wild Vision Bench 的多语言版本,翻译成了23种语言。
模型基准测试胜率 (%)
Aya Vision 32BAyaVisionBench50-64
Aya Vision 32BmWildVision52-72
Aya Vision 8BAyaVisionBench高达 79
Aya Vision 8BmWildVision高达 81

Aya Vision 模型在多种任务和语言上,始终优于更大的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B。

5. 开源与社区集成

Aya Vision 8B 和 32B 都以开源权重形式发布在 Hugging Face 上,以支持研究与开发。

  • 数据集:AyaVisionBench 和 mWildVision 数据集已公开。
  • 社区访问:可通过 WhatsApp 和 Hugging Face Spaces 测试这些模型。
  • 代码示例:提供 Colab 笔记本,帮助开发者将这些模型集成到应用中。

不过需要注意的是,这两个开源模型都不是商用授权的,可以用于研究和测试。

Aya Vision 32B模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/aya-vision-32b Aya Vision 8B模型更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/aya-vision-8b