Name: CodeForces
Creator: 个人

CodeForces 评测基准详情

随着大型语言模型（LLM）能力的飞速发展，如何科学、准确地评估其性能，特别是深度的逻辑推理和代码生成能力，已成为人工智能领域的一大挑战。传统的评测基准在面对日益强大的模型时，逐渐暴露出数据污染、难度不足、无法有效评估真实推理能力等问题。在这一背景下，一个旨在检验模型竞赛级编程水平的评测基准——Codeforces应运而生，为我们提供了一个更严苛、更接近人类程序员真实水平的竞技场。

CodeForces 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	Gemini 3 Deep Think - 2620default	3455	2026-02-13	未知
2	OpenAI o4 - minidefault	2719	2025-04-16	未知
3	DeepSeek V3.2 Specialedefault	2701	2025-12-01	未知
4	GPT OSS 120Bdefault	2622	2025-08-06	117
5	GPT OSS 20Bdefault	2516	2025-08-06	210
6	GPT OSS 120Bdefault	2463	2025-08-06	117
7	DeepSeek V3.2default	2386	2025-12-01	6710
8	GPT OSS 20Bdefault	2230	2025-08-06	210
9	OpenAI o3-minidefault	2073	2025-01-31	未知
10	Qwen3.5-27B思考模式（无工具）	1899	2026-02-25	270

CodeForces 评测基准详情

简介

相关资源

CodeForces 大模型得分排行榜

详细评测数据

CodeForces 大模型得分排行榜

详细评测数据

CodeForces详细排名数据表格