Claude Sonnet 4 评测详情
Claude Sonnet 4 当前已收录的代表性评测结果包括 SWE-bench Verified(13 / 108,得分 80.20)、Terminal-Bench(10 / 35,得分 41.30)、MMLU Pro(37 / 126,得分 84)。并附有 1 个数据来源链接供参考。
评测结果
Claude Sonnet 4
评测结果
综合评估
共 12 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 6 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 12 项评测评测名称 / 模式
得分
排名/总数
AI Agent - 工具使用
共 4 项评测评测名称 / 模式
得分
排名/总数
Agent能力评测
共 4 项评测评测名称 / 模式
得分
排名/总数