模型评测对比最新基准汇总

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型对比

本页面提供Llama 4 Maverick Instruct,GPT-4o,Qwen2.5-72B,DeepSeek-V3-0324,Llama 4 Scout Instruct模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Llama 4 Maverick Instruct,GPT-4o,Qwen2.5-72B,DeepSeek-V3-0324,Llama 4 Scout Instruct模型在MMLU,MMLU Pro,GPQA Diamond,LiveCodeBench等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Llama 4 Maverick Instruct

Facebook AI研究实验室发布的多模态大模型模型。

了解更多无体验地址

核心信息

开发机构

Facebook AI研究实验室

发布时间 2025-04-05

模型类型多模态大模型

MoE 架构

性能与规格

总参数量 4,000 亿

激活参数量未公开

模型大小 218GB

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 4096

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

GPT-4o

OpenAI 发布的多模态大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2024-05-13

模型类型多模态大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 16384

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Qwen2.5-72B

阿里巴巴发布的基础大模型模型。

了解更多无体验地址

核心信息

开发机构

阿里巴巴

发布时间 2024-09-18

模型类型基础大模型

MoE 架构

性能与规格

总参数量 727 亿

激活参数量未公开

模型大小 144GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

DeepSeek-V3-0324

DeepSeek-AI 发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

DeepSeek-AI

发布时间 2025-03-24

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 6,710 亿

激活参数量 370 亿

模型大小 1442GB

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告

模型详细介绍阅读

相关链接

Llama 4 Scout Instruct

Facebook AI研究实验室发布的多模态大模型模型。

了解更多无体验地址

核心信息

开发机构

Facebook AI研究实验室

发布时间 2025-04-05

模型类型多模态大模型

MoE 架构

性能与规格

总参数量 1,090 亿

激活参数量未公开

模型大小 218GB

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 4096

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型各评测基准得分对比表

评测基准	Llama 4 Maverick Instruct normal	GPT-4o normal	Qwen2.5-72B normal	DeepSeek-V3-0324 normal	Llama 4 Scout Instruct normal
MMLU 综合评估	--	88.7	86.1	86.5	--
MMLU Pro 综合评估	80.5	77.9	58.1	81.2	74.3
GPQA Diamond 综合评估	69.8	70.1	45.9	68.4	57.2
LiveCodeBench 编程与软件工程	43.4	35.1	--	49.2	32.8

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Llama 4 Maverick Instruct 在不同模式下的表现

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型对比

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型各评测基准得分对比表

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型评测结果汇总对比图

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型的API价格对比图 (文本输入/输出)

Llama 4 Maverick Instruct与GPT-4o、Qwen2.5-72B、DeepSeek-V3-0324等模型在各评测基准详细对比