模型评测对比 最新基准汇总

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型对比

本页面提供Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Qwen3-235B-A22B-2507,DeepSeek-V3-0324,GPT-4o(2025-03-27),Qwen3-235B-A22B,Kimi K2模型在MMLU Pro,ARC-AGI,GPQA Diamond,AIME2025,LiveCodeBench,Creative Writing,SimpleQA等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →
Qwen3-235B-A22B-2507
Qwen3-235B-A22B-2507

阿里巴巴 发布的聊天大模型模型。

核心信息
开发机构 阿里巴巴 阿里巴巴
发布时间 2025-07-21
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 2,350 亿
激活参数量 220 亿
模型大小 470.77 GB
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 32768
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.7 美元/100 万tokens
输出价格 2.8 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
DeepSeek-V3-0324
DeepSeek-V3-0324

DeepSeek-AI 发布的聊天大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-03-24
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 6,810 亿
激活参数量 未公开
模型大小 700GB
推理能力
推理速度
思考模式
深度思考
最大上下文 160K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.27 美元/100万 tokens
输出价格 1.1 美元/100万 tokens
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
GPT-4o(2025-03-27)
GPT-4o(2025-03-27)

OpenAI 发布的聊天大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-03-27
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 4096
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 2.5 美元/100万 tokens
输出价格 10 美元/100万 tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接
Qwen3-235B-A22B
Qwen3-235B-A22B

阿里巴巴 发布的推理大模型模型。

核心信息
开发机构 阿里巴巴 阿里巴巴
发布时间 2025-04-28
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 2,350 亿
激活参数量 220 亿
模型大小 470GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 16384
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.7 美元/100 万tokens
输出价格 8.4 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
Kimi K2
Kimi K2

Moonshot AI 发布的聊天大模型模型。

核心信息
开发机构 Moonshot AI Moonshot AI
发布时间 2025-07-11
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 10,000 亿
激活参数量 320 亿
模型大小 1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文 131K
最大输出 134144
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.6 美元/100 万tokens
输出价格 2.5 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型各评测基准得分对比表

评测基准 Qwen3-235B-A22B-2507 normal DeepSeek-V3-0324 normal GPT-4o(2025-03-27) normal Qwen3-235B-A22B normal Qwen3-235B-A22B thinking Kimi K2 normal
MMLU Pro
知识问答
83 81.2 79.8 72.9 0 81.1
ARC-AGI
通用知识
41.8 9 8.8 4.3 0 13.3
GPQA Diamond
常识推理
77.5 68.4 66.9 71.1 71.1 75.1
AIME2025
数学推理
70.3 47.7 26.7 24.7 81.5 54
LiveCodeBench
代码生成
51.8 49.2 35.8 70.7 70.7 53.7
Creative Writing
知识问答
87.5 81.6 84.9 80.4 84.6 88.1
SimpleQA
真实性评估
54.3 27.2 40.3 11 0 31

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型评测结果汇总对比图

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型的API价格对比图 (文本输入/输出)

Qwen3-235B-A22B-2507与DeepSeek-V3-0324、GPT-4o(2025-03-27)、Qwen3-235B-A22B等模型在各评测基准详细对比