LiveBench 评测基准详情

LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

Views418
问题数量
1000
发布机构
个人
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度

简介

一种抗污染的大型语言模型基准测试

LiveBench 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

LiveBench详细排名数据表格

将鼠标移至此处继续加载剩余 22 条