SimpleVQA
随着多模态大语言模型(MLLM)在各个领域的应用日益广泛,一个核心问题浮出水面:我们如何信赖它们生成内容的准确性?当模型需要结合图像和文本进行问答时,其回答是否基于事实,还是仅仅是“看似合理”的幻觉?为了应对这一挑战,一个名为SimpleVQA的新型评测基准应运而生,旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。
更新于 2026-04-03
739 次浏览
问题数量
2025
发布机构
个人
评测类别
多模态理解
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。
相关资源
SimpleVQA Model Score Leaderboard
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Latest SimpleVQA model rankings and full benchmark leaderboard
Browse the latest scores, model modes, release dates, and parameter sizes for SimpleVQA.
Model release cutoff:
SimpleVQA详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | Step3 Standard Mode | 62.20 | 2025-07-31 | 3210 |
| 2 | Qwen3.5-27B Thinking Enabled | 56.00 | 2026-02-25 | 270 |