Simple Bench

Name: Simple Bench
Creator: 个人

随着大型语言模型（LLM）的飞速发展，如何准确、全面地评估它们的能力成为了一个日益重要的课题。在众多评测基准中，Simple Bench 以其独特的定位脱颖而出，它专注于检验模型在日常人类推理方面的能力，而在这些方面，当前最先进的模型往往还不如普通人。本文将详细介绍 Simple Bench 评测基准，探讨其出现的背景、设计理念、评测流程以及当前主流模型的表现。

更新于 2026-04-19

1,084 次浏览

问题数量

200

发布机构

个人

评测类别

常识推理

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

一个用于评估大模型常识水平的评测基准

Simple Bench 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

Simple Bench评测最新大模型排名与完整榜单数据

查看 Simple Bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

模型发布时间截止:

排名	模型
1	Gemini 3.0 Pro (Preview 11-2025) 开启思考	76.40	2025-11-18	未知
2	Gemini 2.5-Pro 开启思考	62.40	2025-06-05	未知
3	Opus 4.5 扩展思考	62.00	2025-11-25	未知
4	GPT-5-Pro 开启思考	61.60	2025-08-07	未知
5	Grok 4 开启思考	60.50	2025-07-10	未知
6	Opus 4.1 扩展思考	60.00	2025-08-06	未知
7	Claude Opus 4 开启思考	58.80	2025-05-23	未知
8	GPT-5 思考水平 · 高	56.70	2025-08-07	未知
9	Claude Sonnet 4.5 常规模式	54.30	2025-09-30	未知
10	GPT-5.1 思考水平 · 高	53.20	2025-11-12	未知
11	OpenAI o3 思考水平 · 高	53.10	2025-04-16	未知
12	GLM-4.7 开启思考	47.70	2025-12-22	3580
13	Kimi K2.5 开启思考	46.80	2026-01-27	10000
14	Claude Sonnet 3.7 开启思考	46.40	2025-02-25	未知
15	Claude Sonnet 4 开启思考	45.50	2025-05-23	未知
16	Claude Sonnet 3.7 常规模式	44.90	2025-02-25	未知
17	DeepSeek-R1-0528 开启思考	40.80	2025-05-28	6710
18	OpenAI o1 思考水平 · 高	40.10	2024-12-05	未知
19	OpenAI o4 - mini 开启思考	38.70	2025-04-16	未知
20	GPT-4.5 常规模式	34.50	2025-02-28	未知
21	Qwen3-235B-A22B 开启思考	31.00	2025-04-28	2350
22	DeepSeek-V3-0324 常规模式	27.20	2025-03-24	6710
23	GPT-4.1 常规模式	27.00	2025-04-14	未知
24	Kimi K2 常规模式	26.30	2025-07-11	10000
25	OpenAI o3-mini 开启思考	22.80	2025-01-31	未知
26	GPT OSS 120B 开启思考	22.10	2025-08-06	117
27	DeepSeek-V3 常规模式	18.90	2024-12-26	6810

Simple Bench 大模型得分排行榜

Simple Bench评测最新大模型排名与完整榜单数据

Simple Bench详细排名数据表格