DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogGPT OSS 120B
GP

GPT OSS 120B

GPT Opensources 120B

Release date: 2025-08-06更新于: 2025-08-11 11:36:211,104
Live demoGitHubHugging FaceCompare
Parameters
117.0亿
Context length
128K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GPT OSS 120B

Model basics

Reasoning traces
Supported
Context length
128K tokens
Max output length
131072 tokens
Model type
推理大模型
Release date
2025-08-06
Model file size
240GB
MoE architecture
Yes
Total params / Active params
117.0B / 51B
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
GPT OSS 120B

Open source & experience

Code license
Apache 2.0
Weights license
Apache 2.0- 免费商用授权
GitHub repo
https://github.com/openai/gpt-oss
Hugging Face
https://huggingface.co/openai/gpt-oss-120b
Live demo
No live demo
GPT OSS 120B

Official resources

Paper
Introducing gpt-oss
DataLearnerAI blog
OpenAI开源2个全新大模型,比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B,完全免费商用授权
GPT OSS 120B

API details

API speed
2/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$0.15$0.6
GPT OSS 120B

Benchmark Results

Thinking
Tool usage

综合评估

6 evaluations
Benchmark / mode
Score
Rank/total
MMLUThinking
90
7 / 59
GPQA DiamondThinking
80.10
52 / 153
MMLU ProThinking
79
49 / 112
LiveBenchNormal
55.56
51 / 52
HLEThinking + With tools
19
58 / 105
HLEThinking
14.90
71 / 105

编程与软件工程

3 evaluations
Benchmark / mode
Score
Rank/total
CodeForcesThinking + With tools
2622
4 / 9
CodeForcesThinking
2463
6 / 9
SWE-bench VerifiedThinking
60.10
59 / 87

数学推理

3 evaluations
Benchmark / mode
Score
Rank/total
AIME2025Thinking + With tools
97.90
16 / 105
AIME 2024Thinking + With tools
96.60
2 / 62
AIME2025Thinking
83
49 / 105

常识推理

1 evaluations
Benchmark / mode
Score
Rank/total
Simple BenchThinking
22.10
26 / 27

指令跟随

1 evaluations
Benchmark / mode
Score
Rank/total
IF BenchNormal
69
10 / 25
查看评测深度分析与其他模型对比
GPT OSS 120B

Publisher

OpenAI
OpenAI
View publisher details
GPT Opensources 120B

Model Overview

OpenAI 在 2025 年 8 月推出了 gpt-oss-120b,这是一款开源权重的大规模推理模型,采用 Mixture-of-Experts(MoE)架构,定位为高性价比的可部署推理方案。模型权重与推理实现以 Apache-2.0 许可发布,并配套了使用政策文件,确保在开放使用的同时兼顾合规性与安全性。

该模型的设计目标是在单卡 80GB GPU 环境下运行完整 120B 参数版本,同时保持较高的推理性能和可扩展性。通过精心的路由策略与稀疏激活,gpt-oss-120b 在多项评测中表现接近 OpenAI 的 o4-mini,并支持完整的链式思考输出与工具调用。


核心架构特性

  • 层数与专家:36 层 Transformer,每层 MoE 模块含 128 个专家,推理时激活 Top-4。
  • 注意力机制:交替的稀疏带状窗口与全局密集注意力。
  • 参数规模:总参数约 1168 亿,但每次推理仅激活约 51 亿参数。
  • 上下文长度:原生支持 131,072 个 token,采用 RoPE 与 YaRN 扩展。
  • 显存需求:单卡 80GB 可运行全量版本,另有 20B 精简版适配 16GB 设备。

这些设计让模型在保持规模的同时显著降低了单次推理成本,也为部署在本地或云端提供了更灵活的选择。


训练与对齐

gpt-oss-120b 在大规模混合数据上训练,涵盖通用文本、编程与 STEM 领域,知识更新至 2024 年 6 月。训练完成后,模型经过监督微调和强化学习优化,不同任务可切换推理努力等级,并支持输出完整的推理链路。

它使用 harmony 格式进行对话交互,官方提供了渲染模板和配套库,方便开发者快速集成到已有系统中。


评测表现

在 AIME、HLE、MMLU、GPQA 等基准上,gpt-oss-120b 的得分普遍高于 o3-mini,部分任务接近 o4-mini。在代码生成、数学推理和工具调用方面表现稳定,但在事实性问答和指令防御上略有不足,幻觉率高于 o4-mini。这意味着在生产部署中,最好配合检索、浏览与结果验证机制,以确保可靠性。


GPT-OSS-120B的评测对比可以参考:


安全性与稳健性

OpenAI 对 gpt-oss-120b 进行了对抗性安全评估,包括在生物、化学和网络安全领域的微调实验,未达到高风险能力阈值。在拒绝越狱的表现上与 o4-mini 接近,但在复杂提示注入的防御上略逊一筹。


部署与生态

开发者可以通过 Hugging Face 获取权重,并使用官方提供的 PyTorch、Triton、Metal 实现进行本地推理。模型兼容 Transformers、vLLM、Ollama、LM Studio 等主流推理框架,也已在部分云平台上线。对于需要在低显存硬件上运行的场景,可选择 20B 参数版本作为替代。


总结


gpt-oss-120b 在开源权重模型中,结合了大规模 MoE 架构、高推理性能和较低的部署门槛,为企业和开发者提供了一个可控、可定制的推理模型选择。虽然在部分稳健性和事实性上仍有改进空间,但在数据主权、离线可用性和工具集成等方面具有明显优势。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码