Articles tagged "大模型数学评测能力"

A curated list of original AI and LLM articles related to "大模型数学评测能力", updated regularly.

Tags:#大模型数学评测能力

MATH vs. MATH-500：数学推理评测基准的对比与解析

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

2025/02/15 11:36:411,973