DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Back to benchmark list
  2. /
  3. CodeForces

CodeForces 评测基准详情

随着大型语言模型(LLM)能力的飞速发展,如何科学、准确地评估其性能,特别是深度的逻辑推理和代码生成能力,已成为人工智能领域的一大挑战。传统的评测基准在面对日益强大的模型时,逐渐暴露出数据污染、难度不足、无法有效评估真实推理能力等问题。在这一背景下,一个旨在检验模型竞赛级编程水平的评测基准——Codeforces应运而生,为我们提供了一个更严苛、更接近人类程序员真实水平的竞技场。

更新2026-03-07
Views930
问题数量
387
发布机构
个人
评测类别
编程与软件工程
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

CodeForces Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

CodeForces详细排名数据表格

排名模型
1
Gemini 3 Deep Think - 2620default
34552026-02-13未知
2
OpenAI o4 - minidefault
27192025-04-16未知
3
DeepSeek V3.2 Specialedefault
27012025-12-01未知
4
GPT OSS 120Bdefault
26222025-08-06117
5
GPT OSS 20Bdefault
25162025-08-06210
6
GPT OSS 120Bdefault
24632025-08-06117
7
DeepSeek V3.2default
23862025-12-016710
8
GPT OSS 20Bdefault
22302025-08-06210
9
OpenAI o3-minidefault
20732025-01-31未知
10
Qwen3.5-27B思考模式(无工具)
18992026-02-25270