标签

「大模型综合能力测试」相关文章

汇总「大模型综合能力测试」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大模型综合能力测试

LiveBench：一种抗污染的大型语言模型基准测试

LiveBench是一个针对大型语言模型（LLM）的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制，确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个，每月替换约1/6的问题，以维持测试的有效性。

2025/11/09 22:06:40718

#大模型综合能力测试 #大模型评测