Gemma 3 - 27B (IT) 评测详情

Gemma 3 - 27B (IT) 当前已收录的代表性评测结果包括 MATH(6 / 42,得分 89)、GSM8K(5 / 26,得分 95.90)、BBH(9 / 20,得分 87.60)。

评测结果

Gemma 3 - 27B (IT)

评测结果

思考模式

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
BBH
常规模式
87.60
9 / 20
MMLU
常规模式
78.60
52 / 65
MMLU Pro
常规模式
67.50
96 / 126
GPQA Diamond
常规模式
42.40
162 / 179
36.83
13 / 14

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
GSM8K
常规模式
95.90
5 / 26
MATH
常规模式
89
6 / 42
25.30
57 / 62

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
HumanEval
常规模式
87.80
18 / 39
MBPP
常规模式
74.40
16 / 28
LiveCodeBench
常规模式
29.70
116 / 120

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
HellaSwag
常规模式
85.60
3 / 3

阅读理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
DROP
常规模式
77.20
8 / 9

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
常规模式
10
40 / 45

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
常规模式
64.90
27 / 28

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
4.90
58 / 59