DataLearnerAI · 对比结果

DataLearnerAIQwen3-235B-A22B与GPT OSS 120B模型对比
11

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。DataLearnerAI 基于公开网络采集与整理的模型指标与描述。

Qwen3-235B-A22B-Thinking在四项评测基准(知识问答、常识推理、数学推理)中整体领先GPT OSS 120B,尤其在高难度数学推理(AIME2025)中优势明显。同时,Qwen在上下文长度和推理精度上更适合复杂任务,但GPT OSS 120B在输出长度上具有压倒性优势,并且API价格更低,适合长输出、大批量生成的场景。

洞察结论

  1. 评测性能差异显著 Qwen在MMLU Pro、HLE和AIME2025中均有明显领先,其中数学推理(92.3 vs 83)差距最大,显示其在复杂逻辑与计算能力上的优化成效。 两者在GPQA Diamond(常识推理)差距较小,仅领先1分,说明在一般推理任务上性能接近。
  2. 架构与参数布局差异 Qwen总参数量(305B)和激活参数量(33B)高于GPT OSS 120B(117B/51B),体现不同的MoE激活策略:Qwen激活参数量更小但总量更大,可能更注重稀疏激活效率。 GPT OSS模型体积达240GB,是Qwen(31.17GB)的近8倍,部署成本更高。
  3. 上下文与输出能力的互补性 Qwen支持最大256K上下文,适合长文档理解与多轮推理。 GPT OSS 120B的最大输出长度(131,072 tokens)远超Qwen(16,384 tokens),在长篇生成或批量产出中更具优势。
  4. 价格与商用取向 GPT OSS 120B输入价格(0.15 美元/百万tokens)和输出价格(0.6美元)均低于Qwen(0.2 / 2.4美元),在大规模推理与生成任务中成本更优。 两者均允许免费商用,但GPT OSS 120B的低价策略可能更易被广泛采用。
加载中