SimpleVQA 评测基准详情

随着多模态大语言模型(MLLM)在各个领域的应用日益广泛,一个核心问题浮出水面:我们如何信赖它们生成内容的准确性?当模型需要结合图像和文本进行问答时,其回答是否基于事实,还是仅仅是“看似合理”的幻觉?为了应对这一挑战,一个名为SimpleVQA的新型评测基准应运而生,旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。

SimpleVQA 大模型得分排行榜

数据来源:DataLearnerAI

SimpleVQA详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
62.2
2025-07-31
3210.0
SimpleVQA得分 62.2
发布时间 2025-07-31
参数(亿) 3210.0
查看模型详情