模型评测对比最新基准汇总

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型对比

本页面提供Grok 3.5,DeepSeek-R1,Grok 3,Gemini 2.5 Pro Experimental 03-25,OpenAI o3模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Grok 3.5,DeepSeek-R1,Grok 3,Gemini 2.5 Pro Experimental 03-25,OpenAI o3模型在GPQA Diamond,SimpleQA,AIME 2024,AIME2025等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Grok 3.5

xAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

xAI

发布时间 2025-05-06

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 65536

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告

模型详细介绍 --

相关链接

DeepSeek-R1

DeepSeek-AI 发布的推理大模型模型。

了解更多无体验地址

核心信息

开发机构

DeepSeek-AI

发布时间 2025-01-20

模型类型推理大模型

MoE 架构

性能与规格

总参数量 6,710 亿

激活参数量未公开

模型大小 134GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Grok 3

xAI 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

xAI

发布时间 2025-02-17

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告

模型详细介绍阅读

相关链接

Gemini 2.5 Pro Experimental 03-25

Google Deep Mind 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

Google Deep Mind

发布时间 2025-03-25

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 2000K

最大输出 65536

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

OpenAI o3

OpenAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-04-16

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 100000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型各评测基准得分对比表

评测基准	DeepSeek-R1 normal	Grok 3 normal	Gemini 2.5 Pro Experimental 03-25 normal	OpenAI o3 thinking	OpenAI o3 normal
GPQA Diamond 综合评估	71.5	80.4	84	83.3	--
SimpleQA 真实性评估	30.1	43.4	52.9	--	49.4
AIME 2024 数学推理	79.8	84.2	92	--	91.6
AIME2025 数学推理	70	77.1	86.9	88.9	--

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Grok 3.5 在不同模式下的表现

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型对比

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型各评测基准得分对比表

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型评测结果汇总对比图

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型的API价格对比图 (文本输入/输出)

Grok 3.5与DeepSeek-R1、Grok 3、Gemini 2.5 Pro Experimental 03-25等模型在各评测基准详细对比