模型评测对比最新基准汇总

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型对比

本页面提供Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Llama 4 Scout Instruct,Llama3.1-405B Instruct,Llama3.1-70B-Instruct,Gemma 3 - 27B (IT),Mistral-Small-3.1-24B-Instruct-2503模型在MMLU,MMLU Pro,GPQA Diamond,LiveCodeBench等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Llama 4 Scout Instruct

Facebook AI研究实验室发布的多模态大模型模型。

了解更多无体验地址

核心信息

开发机构

Facebook AI研究实验室

发布时间 2025-04-05

模型类型多模态大模型

MoE 架构

性能与规格

总参数量 1,090 亿

激活参数量未公开

模型大小 218GB

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 4096

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Llama3.1-405B Instruct

Facebook AI研究实验室发布的基础大模型模型。

了解更多在线体验

核心信息

开发机构

Facebook AI研究实验室

发布时间 2024-07-23

模型类型基础大模型

MoE 架构

性能与规格

总参数量 4,050 亿

激活参数量未公开

模型大小 800GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Llama3.1-70B-Instruct

Facebook AI研究实验室发布的基础大模型模型。

了解更多无体验地址

核心信息

开发机构

Facebook AI研究实验室

发布时间 2024-07-23

模型类型基础大模型

MoE 架构

性能与规格

总参数量 700 亿

激活参数量未公开

模型大小 140GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告

模型详细介绍阅读

相关链接

Gemma 3 - 27B (IT)

Google Deep Mind 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

Google Deep Mind

发布时间 2025-03-12

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 270 亿

激活参数量未公开

模型大小 54.8GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Mistral-Small-3.1-24B-Instruct-2503

MistralAI 发布的基础大模型模型。

了解更多无体验地址

核心信息

开发机构

MistralAI

发布时间 2025-03-17

模型类型基础大模型

MoE 架构

性能与规格

总参数量 240 亿

激活参数量未公开

模型大小 48GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型各评测基准得分对比表

评测基准	Llama 4 Scout Instruct normal	Llama3.1-405B Instruct normal	Llama3.1-70B-Instruct normal	Gemma 3 - 27B (IT) normal	Mistral-Small-3.1-24B-Instruct-2503 normal
MMLU 综合评估	--	88.6	86	76.9	80.62
MMLU Pro 综合评估	74.3	73.4	66.4	67.5	66.76
GPQA Diamond 综合评估	57.2	49	48	42.4	45.96
LiveCodeBench 编程与软件工程	32.8	30.2	33.3	29.7	--

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Llama 4 Scout Instruct 在不同模式下的表现

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型对比

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型各评测基准得分对比表

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型评测结果汇总对比图

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型的API价格对比图 (文本输入/输出)

Llama 4 Scout Instruct与Llama3.1-405B Instruct、Llama3.1-70B-Instruct、Gemma 3 - 27B (IT)等模型在各评测基准详细对比