模型评测对比
最新基准汇总
Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型对比
本页面提供Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型在MMLU,MMLU Pro,GPQA Diamond,LiveCodeBench等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Llama 4 Scout Instruct
Facebook AI研究实验室 发布的多模态大模型模型。
核心信息
开发机构
Facebook AI研究实验室
Facebook AI研究实验室
发布时间
2025-04-05
模型类型
多模态大模型
MoE 架构
性能与规格
总参数量
1,090 亿
激活参数量
未公开
模型大小
218GB
推理能力
推理速度
思考模式
深度思考
最大上下文
1000K
最大输出
4096
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
Llama3.1-405B Instruct
Facebook AI研究实验室 发布的基础大模型模型。
核心信息
开发机构
Facebook AI研究实验室
Facebook AI研究实验室
发布时间
2024-07-23
模型类型
基础大模型
MoE 架构
性能与规格
总参数量
4,050 亿
激活参数量
未公开
模型大小
800GB
推理能力
暂无数据
推理速度
暂无数据
思考模式
深度思考
最大上下文
128K
最大输出
0
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
Llama3.1-70B-Instruct
Facebook AI研究实验室 发布的基础大模型模型。
核心信息
开发机构
Facebook AI研究实验室
Facebook AI研究实验室
发布时间
2024-07-23
模型类型
基础大模型
MoE 架构
性能与规格
总参数量
700 亿
激活参数量
未公开
模型大小
140GB
推理能力
暂无数据
推理速度
暂无数据
思考模式
深度思考
最大上下文
128K
最大输出
0
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
模型详细介绍
阅读
相关链接
Gemma 3 - 27B (IT)
Google Deep Mind 发布的聊天大模型模型。
核心信息
开发机构
Google Deep Mind
Google Deep Mind
发布时间
2025-03-12
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
270 亿
激活参数量
未公开
模型大小
54.8GB
推理能力
暂无数据
推理速度
暂无数据
思考模式
深度思考
最大上下文
128K
最大输出
0
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型各评测基准得分对比表
| 评测基准 |
Llama 4 Scout Instruct
normal
|
Llama3.1-405B Instruct
normal
|
Llama3.1-70B-Instruct
normal
|
Gemma 3 - 27B (IT)
normal
|
Mistral-Small-3.1-24B-Instruct-2503
normal
|
|---|---|---|---|---|---|
|
MMLU
综合评估
|
-- | 88.6 | 86 | 76.9 | 80.62 |
|
MMLU Pro
综合评估
|
74.3 | 73.4 | 66.4 | 67.5 | 66.76 |
|
GPQA Diamond
综合评估
|
57.2 | 49 | 48 | 42.4 | 45.96 |
|
LiveCodeBench
编程与软件工程
|
32.8 | 30.2 | 33.3 | 29.7 | -- |
MistralAI