Claude 3.5 Sonnet New 评测详情
Claude 3.5 Sonnet New 当前已收录的代表性评测结果包括 HumanEval(3 / 39,得分 93.70)、BBH(2 / 20,得分 92.60)、MMLU(17 / 64,得分 88.30)。
评测结果
Claude 3.5 Sonnet New
评测结果
编程与软件工程
共 3 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 5 项评测评测名称 / 模式
得分
排名/总数
Claude 3.5 Sonnet New 当前已收录的代表性评测结果包括 HumanEval(3 / 39,得分 93.70)、BBH(2 / 20,得分 92.60)、MMLU(17 / 64,得分 88.30)。