DataLearnerAI · 对比结果

DataLearnerAIQwen3-235B-A22B与GPT OSS 120B模型对比
11

自动展示选中模型的核心信息与各评测得分，可左右滑动查看完整表格。DataLearnerAI 基于公开网络采集与整理的模型指标与描述。

Qwen3-235B-A22B-Thinking在四项评测基准（知识问答、常识推理、数学推理）中整体领先GPT OSS 120B，尤其在高难度数学推理（AIME2025）中优势明显。同时，Qwen在上下文长度和推理精度上更适合复杂任务，但GPT OSS 120B在输出长度上具有压倒性优势，并且API价格更低，适合长输出、大批量生成的场景。

洞察结论

评测性能差异显著 Qwen在MMLU Pro、HLE和AIME2025中均有明显领先，其中数学推理（92.3 vs 83）差距最大，显示其在复杂逻辑与计算能力上的优化成效。两者在GPQA Diamond（常识推理）差距较小，仅领先1分，说明在一般推理任务上性能接近。
架构与参数布局差异 Qwen总参数量（305B）和激活参数量（33B）高于GPT OSS 120B（117B/51B），体现不同的MoE激活策略：Qwen激活参数量更小但总量更大，可能更注重稀疏激活效率。 GPT OSS模型体积达240GB，是Qwen（31.17GB）的近8倍，部署成本更高。
上下文与输出能力的互补性 Qwen支持最大256K上下文，适合长文档理解与多轮推理。 GPT OSS 120B的最大输出长度（131,072 tokens）远超Qwen（16,384 tokens），在长篇生成或批量产出中更具优势。
价格与商用取向 GPT OSS 120B输入价格（0.15 美元/百万tokens）和输出价格（0.6美元）均低于Qwen（0.2 / 2.4美元），在大规模推理与生成任务中成本更优。两者均允许免费商用，但GPT OSS 120B的低价策略可能更易被广泛采用。

加载中

DataLearnerAIQwen3-235B-A22B与GPT OSS 120B模型对比11

DataLearnerAIQwen3-235B-A22B与GPT OSS 120B模型对比
11