DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

Ai2发布全新评测基准SciArena:为科学文献任务而生的大模型评测新基准,o3大幅领先所有大模型

2025/07/02 21:06:29
484 阅读
SciArena大模型科研评测大模型评测

科学文献的爆炸式增长,使得研究者日益难以全面掌握和整合新知识。基础模型(Foundation Models)正越来越多地被应用于支撑该领域的知识发现与信息整合,但如何全面、动态、细致地评测这些模型在开放性科学任务上的能力,却一直是学界未解的难题。传统通用类评测基准往往静态有限、颗粒度粗、更新滞后,难以满足科学研究领域的评测诉求。

为此,Ai2发布了一个全新评测平台——SciArena,用以帮助我们来测试大模型在科研领域的能力。这个评测系统使用了“人类众包对比评测”的理念,更结合科学问题的独特复杂性,构建了开放、透明且可迭代的模型评测生态。本文将对SciArena的核心机制、亮点创新、初步成果及其带来的未来挑战进行解读。

  • SciArena的核心亮点:专为科学文献任务而打造的评测平台
  • SciArena的实现方法:针对科学文献的“检索-生成-对比”流水线
  • SciArena测试结果:o3一骑绝尘,DeepSeek-R1属于第一档
  • 自动评测系统的挑战
  • SciArena总结与展望

SciArena的核心亮点:专为科学文献任务而打造的评测平台

作为一个以社区为驱动力的开放评测平台,SciArena针对科学文献场景,兼顾科学性、场景还原和动态实时性,为基础大模型能力诊断提供了全新思路。

SciArena本身由三个重要组成部分协同构建:

  1. 社区众包评测平台 研究者可在平台上提交科学问题,平台自动检索并获取高质量的期刊文献背景,然后由两随机选取的主流基础模型生成带有引用的长文本答案,最终由用户盲评选择最优答案。

  2. 动态Leaderboard排名 基于用户投票结果,平台采用Elo评分系统对模型进行动态排名,反映主流模型在不同领域下的真实表现。

  3. Meta评测数据集SciArena-Eval 基于真实投票数据,构建新型meta-evaluation基准,用以评估纯自动化评测机制的准确性和可信度。

这种以任务驱动+社区评审+数据反哺为核心的机制,不仅有效提升评测的客观性,还可持续扩展到更多模型与问题类型。

SciArena的实现方法:针对科学文献的“检索-生成-对比”流水线

相比通用领域评测,科学问题任务对模型能力要求极高,尤其需要准确引用专业文献并输出结构化、可信的文本。

为了更加客观准确测试大模型在科学问题上的能力,SciArena充分借鉴并提升了Ai2自身的Scholar QA系统,形成了如下独特的评测流水线:

  • 多阶段检索 用户提交问题后,平台首先将问题拆分成更精细的检索子意图,自动检索出高相关的科学文献段落,并进行重排序,保证答案“有的放矢”。
  • 标准化长文本生成 两款模型基于相同文献语境,各自生成结构规范、格式统一(如引用风格统一)的详细回答,以尽可能减少文风、格式等非本质因素带来的主观偏差。
  • 盲审投票 所有答案在展示时都去除模型身份标记,仅凭内容和学术价值评判优劣。
  • 多维度质量保障 包括严格的专家招募、高强度标注培训、全面的质量校验及自一致性追踪,保障每一份数据的真实与可靠。

这一完整闭环的科学场景评测流程,是目前通用大模型测评所难以企及的创新。

SciArena测试结果:o3一骑绝尘,DeepSeek-R1属于第一档

截至2025年6月30日,SciArena已收录并评测了23款代表前沿能力的基础模型。这些模型不仅覆盖了LLM主流阵营(如OpenAI、Anthropic、DeepSeek等),还补充了部分专业面向科学的模型,代表了行业最新的梯队水平。

根据SciArena Leaderboard以及上万份科学家盲评结果,我们可以看到排行如下:

可以看到,o3是断档领先其它模型,Ai2发现o3对被引科学论文的阐述更为详细,其输出在工程学科领域更偏向技术性。

剩下是Claude-4-Opus模型,而有意思的是在各方面评价都很好的Gemini-2.5-Pro和DeepSeek-R1-0528、o4-mini模型同一水平。不得不说,DeepSeek真的很强!

除了o3外,其它模型的表现与领域都很相关,例如,Claude-4-Opus 在医疗保健领域表现出色,而 DeepSeek-R1-0528 在自然科学领域表现优异。

令人关注的是,在Healthcare和Natural Science这类高度专业化领域,头部模型的“专精化表现”也极为明显,暗示未来AI模型分领域调优的重要趋势。

值得一提的是,Llama4-Scout表现非常差,倒数第一,与此前大家感知基本一致!

自动评测系统的挑战

SciArena-Eval作为平台的Meta评测模块,测算了模型自身在预测人类偏好上的能力。实验显示,即使是表现最优的o3,仅能达到65.1%的准确率(人机一致性),显著低于通用评测如AlpacaEval、WildChat中>70%的标准。 这说明:科学任务的开放性和专业性,令自动化评测依然面临重大技术难题,任何机械的评测分都远不是“终极判据”。

SciArena总结与展望

作为全球首个专注于科学文献任务的基础模型开放评测平台,SciArena兼顾了任务还原、评测科学性和数据开放性,推动基础模型在科研应用场景的真实能力不断提升。其创新的“多阶段检索+盲审投票+Meta基评”体系,不仅能够精准诊断多模型多学科下的能力短板,也为下一代自动评测系统的构建提供了坚实的数据支撑。

未来,平台将持续扩容模型池,并系统探索不同检索索引、召回机制和Prompt设计对评测结果的潜在影响,不断完善科学AI评测的行业新基准。对于科学家、AI开发者以及科研数据产品团队,SciArena无疑是值得重点关注和参与的新一代科学评测基础设施。

SciArena的原文参考Ai2官网:https://allenai.org/blog/sciarena

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • PinchBench:OpenClaw AI 代理真实任务基准测试介绍
  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署