模型评测对比 最新基准汇总

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型对比

本页面提供Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型在MMLU,MMLU Pro,GPQA Diamond,LiveCodeBench等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Llama 4 Scout Instruct
Llama 4 Scout Instruct

Facebook AI研究实验室 发布的多模态大模型模型。

核心信息
发布时间 2025-04-05
模型类型 多模态大模型
MoE 架构
性能与规格
总参数量 1,090 亿
激活参数量 未公开
模型大小 218GB
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 4096
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
Llama3.1-405B Instruct
Llama3.1-405B Instruct

Facebook AI研究实验室 发布的基础大模型模型。

核心信息
发布时间 2024-07-23
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 4,050 亿
激活参数量 未公开
模型大小 800GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
Llama3.1-70B-Instruct
Llama3.1-70B-Instruct

Facebook AI研究实验室 发布的基础大模型模型。

核心信息
发布时间 2024-07-23
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 700 亿
激活参数量 未公开
模型大小 140GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
Gemma 3 - 27B (IT)
Gemma 3 - 27B (IT)

Google Deep Mind 发布的聊天大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-03-12
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 270 亿
激活参数量 未公开
模型大小 54.8GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
Mistral-Small-3.1-24B-Instruct-2503
Mistral-Small-3.1-24B-Instruct-2503

MistralAI 发布的基础大模型模型。

核心信息
开发机构 MistralAI MistralAI
发布时间 2025-03-17
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 240 亿
激活参数量 未公开
模型大小 48GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型各评测基准得分对比表

评测基准
Llama 4 Scout Instruct normal
Llama3.1-405B Instruct normal
Llama3.1-70B-Instruct normal
Gemma 3 - 27B (IT) normal
Mistral-Small-3.1-24B-Instruct-2503 normal
MMLU
综合评估
-- 88.6 86 76.9 80.62
MMLU Pro
综合评估
74.3 73.4 66.4 67.5 66.76
GPQA Diamond
综合评估
57.2 49 48 42.4 45.96
LiveCodeBench
编程与软件工程
32.8 30.2 33.3 29.7 --

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Llama 4 Scout Instruct 在不同模式下的表现

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型的API价格对比图 (文本输入/输出)

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型在各评测基准详细对比