DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools
搜索博客
中
EN
加载中...
Claude Sonnet 4 评测详情 | DataLearnerAI
大模型列表
Claude Sonnet 4
评测分析
Claude Sonnet 4 评测详情
以下是 Claude Sonnet 4 在各项评测中的得分数据与模型对比。深度分析报告正在准备中。
评测结果
Claude Sonnet 4
评测结果
思考模式
全部
常规
思考
思考模式细分 (3)
全部
默认 (thinking)
parallel_thinking
deeper_thinking
工具使用
全部
使用工具
不使用工具
并行模式
排除并行
全部并行模式
综合评估
共 6 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
thinking
84
28 / 114
GPQA Diamond
thinking
75.40
75 / 160
LiveBench
thinking
73.82
10 / 51
ARC-AGI
thinking
40
32 / 49
HLE
thinking
9.60
94 / 114
ARC-AGI-2
thinking
5.90
31 / 41
编程与软件工程
共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
thinking
66
46 / 106
SWE-Bench Pro - Public
thinking
42.70
13 / 19
数学推理
共 5 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
thinking
70.50
73 / 107
IMO-ProofBench
thinking
27.10
8 / 16
IMO 2024
thinking
5.20
8 / 10
IMO-ProofBench Advanced
thinking
4.80
6 / 8
IMO 2025
thinking
4
5 / 9
常识推理
共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
thinking
45.50
15 / 27
Agent能力评测
共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
thinking
61.30
16 / 26
生产力知识
共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
thinking
33
13 / 15
长上下文能力
共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
thinking
65
8 / 11
与其他模型对比
数据来源与参考
artificialanalysis.ai