GPT OSS 120B

推理大模型

GPT Opensources 120B

发布时间: 2025-08-06

682

GitHub Hugging Face 在线体验

模型参数（Parameters）

117.0

最高上下文长度（Context Length）

128K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

128K tokens

最长输出结果

131072 tokens

模型类型

推理大模型

发布时间

2025-08-06

模型预文件大小

240GB

推理模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0 - 免费商用授权

GitHub 源码

https://github.com/openai/gpt-oss

Hugging Face

https://huggingface.co/openai/gpt-oss-120b

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Introducing gpt-oss

DataLearnerAI博客

OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	0.15 美元/100万 tokens	0.6 美元/100万 tokens

GPT OSS 120B模型在各大评测榜单的评分

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总模型数

MMLU thinking

7 / 59

GPQA Diamond thinking

80.10

35 / 133

MMLU Pro thinking

43 / 105

LiveBench normal

55.56

47 / 48

HLE thinking + 使用工具

26 / 68

HLE thinking

14.90

38 / 68

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

CodeForces thinking + 使用工具

2622

2 / 6

CodeForces thinking

2463

4 / 6

SWE-bench Verified thinking

60.10

41 / 66

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

AIME2025 thinking + 使用工具

97.90

13 / 93

AIME 2024 thinking + 使用工具

96.60

2 / 62

AIME2025 thinking

38 / 93

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Simple Bench thinking

22.10

23 / 24

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

IF Bench normal

4 / 11

发布机构

OpenAI

查看发布机构详情

GPT Opensources 120B模型解读

OpenAI 在 2025 年 8 月推出了 gpt-oss-120b，这是一款开源权重的大规模推理模型，采用 Mixture-of-Experts（MoE）架构，定位为高性价比的可部署推理方案。模型权重与推理实现以 Apache-2.0 许可发布，并配套了使用政策文件，确保在开放使用的同时兼顾合规性与安全性。

该模型的设计目标是在单卡 80GB GPU 环境下运行完整 120B 参数版本，同时保持较高的推理性能和可扩展性。通过精心的路由策略与稀疏激活，gpt-oss-120b 在多项评测中表现接近 OpenAI 的 o4-mini，并支持完整的链式思考输出与工具调用。

核心架构特性

层数与专家：36 层 Transformer，每层 MoE 模块含 128 个专家，推理时激活 Top-4。
注意力机制：交替的稀疏带状窗口与全局密集注意力。
参数规模：总参数约 1168 亿，但每次推理仅激活约 51 亿参数。
上下文长度：原生支持 131,072 个 token，采用 RoPE 与 YaRN 扩展。
显存需求：单卡 80GB 可运行全量版本，另有 20B 精简版适配 16GB 设备。

这些设计让模型在保持规模的同时显著降低了单次推理成本，也为部署在本地或云端提供了更灵活的选择。

训练与对齐

gpt-oss-120b 在大规模混合数据上训练，涵盖通用文本、编程与 STEM 领域，知识更新至 2024 年 6 月。训练完成后，模型经过监督微调和强化学习优化，不同任务可切换推理努力等级，并支持输出完整的推理链路。

它使用 harmony 格式进行对话交互，官方提供了渲染模板和配套库，方便开发者快速集成到已有系统中。

评测表现

在 AIME、HLE、MMLU、GPQA 等基准上，gpt-oss-120b 的得分普遍高于 o3-mini，部分任务接近 o4-mini。在代码生成、数学推理和工具调用方面表现稳定，但在事实性问答和指令防御上略有不足，幻觉率高于 o4-mini。这意味着在生产部署中，最好配合检索、浏览与结果验证机制，以确保可靠性。

GPT-OSS-120B的评测对比可以参考：

安全性与稳健性

OpenAI 对 gpt-oss-120b 进行了对抗性安全评估，包括在生物、化学和网络安全领域的微调实验，未达到高风险能力阈值。在拒绝越狱的表现上与 o4-mini 接近，但在复杂提示注入的防御上略逊一筹。

部署与生态

开发者可以通过 Hugging Face 获取权重，并使用官方提供的 PyTorch、Triton、Metal 实现进行本地推理。模型兼容 Transformers、vLLM、Ollama、LM Studio 等主流推理框架，也已在部分云平台上线。对于需要在低显存硬件上运行的场景，可选择 20B 参数版本作为替代。

总结

gpt-oss-120b 在开源权重模型中，结合了大规模 MoE 架构、高推理性能和较低的部署门槛，为企业和开发者提供了一个可控、可定制的推理模型选择。虽然在部分稳健性和事实性上仍有改进空间，但在数据主权、离线可用性和工具集成等方面具有明显优势。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯