DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航
搜索博客
中
EN
加载中...
Claude 3.5 Sonnet 评测深度分析 | DataLearnerAI
大模型列表
Claude 3.5 Sonnet
评测分析
Claude 3.5 Sonnet 评测详情
以下是 Claude 3.5 Sonnet 在各项评测中的得分数据与模型对比。深度分析报告正在准备中。
评测结果
Claude 3.5 Sonnet
评测结果
思考模式
全部
常规
综合评估
共 3 项评测
评测名称 / 模式
得分
排名/总数
MMLU
常规
88.30
14 / 59
MMLU Pro
常规
77.64
62 / 114
GPQA Diamond
常规
59.40
124 / 161
编程与软件工程
共 1 项评测
评测名称 / 模式
得分
排名/总数
HumanEval
常规
92
4 / 36
数学推理
共 3 项评测
评测名称 / 模式
得分
排名/总数
MATH
常规
71.10
18 / 41
FrontierMath
常规
1
50 / 58
FrontierMath - Tier 4
常规
0.01
31 / 38
与其他模型对比