模型评测对比最新基准汇总

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型对比

本页面提供Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型在MMLU Pro,ARC-AGI,GPQA Diamond,AIME2025,LiveCodeBench,Creative Writing,SimpleQA等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Qwen3-235B-A22B-2507

阿里巴巴发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

阿里巴巴

发布时间 2025-07-21

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 2,350 亿

激活参数量 220 亿

模型大小 470.77 GB

推理能力

推理速度

思考模式

深度思考

最大上下文 256K

最大输出 32768

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 0.7 美元/100 万tokens

输出价格 2.8 美元/100 万tokens

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

DeepSeek-V3-0324

DeepSeek-AI 发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

DeepSeek-AI

发布时间 2025-03-24

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 6,810 亿

激活参数量未公开

模型大小 700GB

推理能力

推理速度

思考模式

深度思考

最大上下文 160K

最大输出 0

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 0.27 美元/100万 tokens

输出价格 1.1 美元/100万 tokens

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告

模型详细介绍阅读

相关链接

GPT-4o(2025-03-27)

OpenAI 发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-03-27

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 4096

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 2.5 美元/100万 tokens

输出价格 10 美元/100万 tokens

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Qwen3-235B-A22B

阿里巴巴发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

阿里巴巴

发布时间 2025-04-28

模型类型推理大模型

MoE 架构

性能与规格

总参数量 2,350 亿

激活参数量 220 亿

模型大小 470GB

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 16384

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 0.7 美元/100 万tokens

输出价格 8.4 美元/100 万tokens

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Kimi K2

Moonshot AI 发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

Moonshot AI

发布时间 2025-07-11

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 10,000 亿

激活参数量 320 亿

模型大小 1.01TB

推理能力

推理速度

思考模式

深度思考

最大上下文 131K

最大输出 134144

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 0.6 美元/100 万tokens

输出价格 2.5 美元/100 万tokens

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型各评测基准得分对比表

评测基准	Qwen3-235B-A22B-2507 normal	DeepSeek-V3-0324 normal	GPT-4o(2025-03-27) normal	Qwen3-235B-A22B normal	Qwen3-235B-A22B thinking	Kimi K2 normal
MMLU Pro 知识问答	83	81.2	79.8	72.9	0	81.1
ARC-AGI 通用知识	41.8	9	8.8	4.3	0	13.3
GPQA Diamond 常识推理	77.5	68.4	66.9	71.1	71.1	75.1
AIME2025 数学推理	70.3	47.7	26.7	24.7	81.5	54
LiveCodeBench 代码生成	51.8	49.2	35.8	70.7	70.7	53.7
Creative Writing 知识问答	87.5	81.6	84.9	80.4	84.6	88.1
SimpleQA 真实性评估	54.3	27.2	40.3	11	0	31

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型对比

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型各评测基准得分对比表

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型评测结果汇总对比图

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型的API价格对比图 (文本输入/输出)

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型在各评测基准详细对比