DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools
搜索博客
中
EN
加载中...
DeepSeek-R1-0528 评测详情 | DataLearnerAI
大模型列表
DeepSeek-R1-0528
评测分析
DeepSeek-R1-0528 评测详情
以下是 DeepSeek-R1-0528 在各项评测中的得分数据与模型对比。深度分析报告正在准备中。
评测结果
DeepSeek-R1-0528
评测结果
思考模式
全部
思考
思考模式细分 (1)
全部
默认 (thinking)
综合评估
共 5 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
thinking
85
16 / 114
GPQA Diamond
thinking
81
52 / 160
ARC-AGI
thinking
21.20
41 / 49
HLE
thinking
17.70
72 / 114
ARC-AGI-2
thinking
1.30
37 / 41
常识问答
共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
thinking
27.80
25 / 45
编程与软件工程
共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
thinking
73.30
33 / 106
SWE-bench Verified
thinking
57.60
65 / 90
数学推理
共 5 项评测
评测名称 / 模式
得分
排名/总数
MATH-500
thinking
98
7 / 43
AIME 2024
thinking
91.40
13 / 62
AIME2025
thinking
87.50
44 / 107
IMO-ProofBench
thinking
29
7 / 16
IMO-ProofBench Advanced
thinking
3.80
8 / 8
写作和创作
共 1 项评测
评测名称 / 模式
得分
排名/总数
Creative Writing
thinking
86.25
4 / 22
AI Agent - 工具使用
共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal-Bench
thinking
5.70
35 / 35
常识推理
共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
thinking
40.80
17 / 27
Agent能力评测
共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
thinking
71.40
10 / 26
与其他模型对比