模型评测对比
最新基准汇总
Qwen3-235B-A22B-Thinking与GPT OSS 120B模型对比
本页面提供Qwen3-235B-A22B-Thinking,GPT OSS 120B模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Qwen3-235B-A22B-Thinking,GPT OSS 120B模型在GPQA Diamond,HLE,LiveBench,MMLU,MMLU Pro,CodeForces,LiveCodeBench,SWE-bench Verified,AIME 2024,AIME2025,Creative Writing,Simple Bench,IF Bench等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Qwen3-235B-A22B-Thinking
阿里巴巴 发布的推理大模型模型。
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
Qwen3-235B-A22B-Thinking与GPT OSS 120B模型各评测基准得分对比表
| 评测基准 |
Qwen3-235B-A22B-Thinking
thinking
|
GPT OSS 120B
thinking
|
GPT OSS 120B
thinking + 使用工具
|
GPT OSS 120B
normal
|
|---|---|---|---|---|
|
GPQA Diamond
综合评估
|
81.1 | 80.1 | -- | -- |
|
HLE
综合评估
|
18.2 | 14.9 | 19 | -- |
|
LiveBench
综合评估
|
63.42 | -- | -- | 55.56 |
|
MMLU
综合评估
|
-- | 90 | -- | -- |
|
MMLU Pro
综合评估
|
84.4 | 79 | -- | -- |
|
CodeForces
编程与软件工程
|
-- | 2,463 | 2,622 | -- |
|
LiveCodeBench
编程与软件工程
|
74.1 | -- | -- | -- |
|
SWE-bench Verified
编程与软件工程
|
-- | 60.1 | -- | -- |
|
AIME 2024
数学推理
|
-- | -- | 96.6 | -- |
|
AIME2025
数学推理
|
92.3 | 83 | 97.9 | -- |
|
Creative Writing
写作和创作
|
86.1 | -- | -- | -- |
|
Simple Bench
常识推理
|
-- | 22.1 | -- | -- |
|
IF Bench
指令跟随
|
-- | -- | -- | 69 |
阿里巴巴
OpenAI