模型评测对比
最新基准汇总
Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型对比
本页面提供Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型在MMLU Pro,ARC-AGI,GPQA Diamond,AIME2025,LiveCodeBench,Creative Writing,SimpleQA等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Qwen3-235B-A22B-2507
阿里巴巴 发布的聊天大模型模型。
DeepSeek-V3-0324
DeepSeek-AI 发布的聊天大模型模型。
核心信息
开发机构
DeepSeek-AI

发布时间
2025-03-24
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
6,810 亿
激活参数量
未公开
模型大小
700GB
推理能力
推理速度
思考模式
深度思考
最大上下文
160K
最大输出
0
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.27 美元/100万 tokens
输出价格
1.1 美元/100万 tokens
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
模型详细介绍
阅读
相关链接
GPT-4o(2025-03-27)
OpenAI 发布的聊天大模型模型。
Qwen3-235B-A22B
阿里巴巴 发布的推理大模型模型。
Kimi K2
Moonshot AI 发布的聊天大模型模型。
核心信息
开发机构
Moonshot AI

发布时间
2025-07-11
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
10,000 亿
激活参数量
320 亿
模型大小
1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文
131K
最大输出
134144
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.6 美元/100 万tokens
输出价格
2.5 美元/100 万tokens
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型各评测基准得分对比表
评测基准 | Qwen3-235B-A22B-2507 normal | DeepSeek-V3-0324 normal | GPT-4o(2025-03-27) normal | Qwen3-235B-A22B normal | Qwen3-235B-A22B thinking | Kimi K2 normal |
---|---|---|---|---|---|---|
MMLU Pro
知识问答
|
83 | 81.2 | 79.8 | 72.9 | 0 | 81.1 |
ARC-AGI
通用知识
|
41.8 | 9 | 8.8 | 4.3 | 0 | 13.3 |
GPQA Diamond
常识推理
|
77.5 | 68.4 | 66.9 | 71.1 | 71.1 | 75.1 |
AIME2025
数学推理
|
70.3 | 47.7 | 26.7 | 24.7 | 81.5 | 54 |
LiveCodeBench
代码生成
|
51.8 | 49.2 | 35.8 | 70.7 | 70.7 | 53.7 |
Creative Writing
知识问答
|
87.5 | 81.6 | 84.9 | 80.4 | 84.6 | 88.1 |
SimpleQA
真实性评估
|
54.3 | 27.2 | 40.3 | 11 | 0 | 31 |