Qwen3-235B-A22B-Thinking在四项评测基准(知识问答、常识推理、数学推理)中整体领先GPT OSS 120B,尤其在高难度数学推理(AIME2025)中优势明显。同时,Qwen在上下文长度和推理精度上更适合复杂任务,但GPT OSS 120B在输出长度上具有压倒性优势,并且API价格更低,适合长输出、大批量生成的场景。
洞察结论
- 评测性能差异显著 Qwen在MMLU Pro、HLE和AIME2025中均有明显领先,其中数学推理(92.3 vs 83)差距最大,显示其在复杂逻辑与计算能力上的优化成效。 两者在GPQA Diamond(常识推理)差距较小,仅领先1分,说明在一般推理任务上性能接近。
- 架构与参数布局差异 Qwen总参数量(305B)和激活参数量(33B)高于GPT OSS 120B(117B/51B),体现不同的MoE激活策略:Qwen激活参数量更小但总量更大,可能更注重稀疏激活效率。 GPT OSS模型体积达240GB,是Qwen(31.17GB)的近8倍,部署成本更高。
- 上下文与输出能力的互补性 Qwen支持最大256K上下文,适合长文档理解与多轮推理。 GPT OSS 120B的最大输出长度(131,072 tokens)远超Qwen(16,384 tokens),在长篇生成或批量产出中更具优势。
- 价格与商用取向 GPT OSS 120B输入价格(0.15 美元/百万tokens)和输出价格(0.6美元)均低于Qwen(0.2 / 2.4美元),在大规模推理与生成任务中成本更优。 两者均允许免费商用,但GPT OSS 120B的低价策略可能更易被广泛采用。
加载中