Tag

Articles tagged "大模型综合能力测试"

A curated list of original AI and LLM articles related to "大模型综合能力测试", updated regularly.

Tags:#大模型综合能力测试

LiveBench：一种抗污染的大型语言模型基准测试

LiveBench是一个针对大型语言模型（LLM）的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制，确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个，每月替换约1/6的问题，以维持测试的有效性。

2025/11/09 22:06:40766

#大模型综合能力测试 #大模型评测