热门大模型对比：Qwen3-235B-A22B与GPT OSS 120B模型对比

Qwen3-235B-A22B-Thinking在四项评测基准（知识问答、常识推理、数学推理）中整体领先GPT OSS 120B，尤其在高难度数学推理（AIME2025）中优势明显。同时，Qwen在上下文长度和推理精度上更适合复杂任务，但GPT OSS 120B在输出长度上具有压倒性优势，并且API价格更低，适合长输出、大批量生成的场景。

洞察结论

评测性能差异显著 Qwen在MMLU Pro、HLE和AIME2025中均有明显领先，其中数学推理（92.3 vs 83）差距最大，显示其在复杂逻辑与计算能力上的优化成效。两者在GPQA Diamond（常识推理）差距较小，仅领先1分，说明在一般推理任务上性能接近。
架构与参数布局差异 Qwen总参数量（305B）和激活参数量（33B）高于GPT OSS 120B（117B/51B），体现不同的MoE激活策略：Qwen激活参数量更小但总量更大，可能更注重稀疏激活效率。 GPT OSS模型体积达240GB，是Qwen（31.17GB）的近8倍，部署成本更高。
上下文与输出能力的互补性 Qwen支持最大256K上下文，适合长文档理解与多轮推理。 GPT OSS 120B的最大输出长度（131,072 tokens）远超Qwen（16,384 tokens），在长篇生成或批量产出中更具优势。
价格与商用取向 GPT OSS 120B输入价格（0.15 美元/百万tokens）和输出价格（0.6美元）均低于Qwen（0.2 / 2.4美元），在大规模推理与生成任务中成本更优。两者均允许免费商用，但GPT OSS 120B的低价策略可能更易被广泛采用。

评测项	Qwen3-235B-A22B-Thinking	GPT OSS 120B
GPQA Diamond 综合评估	81.10开启思考	80.10开启思考
HLE 综合评估	18.20开启思考	19.00开启思考｜工具
LiveBench 综合评估	52.97开启思考	46.09常规模式
MMLU Pro 综合评估	84.40开启思考	79.00开启思考
AIME2025 数学推理	92.30开启思考	97.90开启思考｜工具

评测项

Qwen3-235B-A22B-Thinking

GPT OSS 120B

GPQA Diamond

综合评估

81.10开启思考

80.10开启思考

HLE

综合评估

18.20开启思考

19.00开启思考｜工具

LiveBench

综合评估

52.97开启思考

46.09常规模式

MMLU Pro

综合评估

84.40开启思考

79.00开启思考

AIME2025

数学推理

92.30开启思考

97.90开启思考｜工具

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Qwen3-235B-A22B-Thinking阿里巴巴	GPT OSS 120BOpenAI
核心规格发布时间	2025-07-30	2025-08-06
上下文	256K	128K
参数量	305	117
激活参数量	33	51
最大输出	16384	131072
MoE 架构	支持	支持
支持模式	思考模式（Thinking Mode）	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	免费商用授权	免费商用授权
模态支持文本输入/输出	/	/
资料来源论文 / 报告	Qwen3: Think Deeper, Act Faster	Introducing gpt-oss
DataLearner 博客	未提供	OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

Qwen3-235B-A22B与GPT OSS 120B模型对比

性能评测对比

评测得分表格

API 价格对比

能力与规格明细