「数学推理」标签相关文章

IMO-Bench：谷歌发布的用于大模型数学推理的鲁棒评估基准

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

2025/11/10 17:22:45102

#大模型数学推理评测 #大模型评测 #大模型评测基准

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad ，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学的“窄”方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

2025/07/19 18:22:051,237

#GPT #OpenAI #大模型

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

2023/08/13 23:45:441,416

#WizardLM #WizardMath #数学推理大模型

「数学推理」相关文章

IMO-Bench：谷歌发布的用于大模型数学推理的鲁棒评估基准

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！