DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GPT OSS 120B
GP

GPT OSS 120B

GPT Opensources 120B

发布时间: 2025-08-06更新于: 2025-08-11 11:36:211,103
在线体验GitHubHugging FaceCompare
模型参数
117.0亿
上下文长度
128K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT OSS 120B

模型基本信息

推理过程
支持
上下文长度
128K tokens
最大输出长度
131072 tokens
模型类型
推理大模型
发布时间
2025-08-06
模型文件大小
240GB
MoE架构
是
总参数 / 激活参数
117.0 亿 / 51 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
GPT OSS 120B

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
https://github.com/openai/gpt-oss
Hugging Face
https://huggingface.co/openai/gpt-oss-120b
在线体验
暂无在线体验地址
GPT OSS 120B

官方介绍与博客

官方论文
Introducing gpt-oss
DataLearnerAI博客
OpenAI开源2个全新大模型,比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B,完全免费商用授权
GPT OSS 120B

API接口信息

接口速度
2/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.15$0.6
GPT OSS 120B

评测结果

思考模式
工具使用

综合评估

共 6 项评测
评测名称 / 模式
得分
排名/总数
MMLU思考
90
7 / 59
GPQA Diamond思考
80.10
52 / 153
MMLU Pro思考
79
49 / 112
LiveBench常规
55.56
51 / 52
HLE思考 + 使用工具
19
58 / 105
HLE思考
14.90
71 / 105

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
CodeForces思考 + 使用工具
2622
4 / 9
CodeForces思考
2463
6 / 9
SWE-bench Verified思考
60.10
59 / 87

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
AIME2025思考 + 使用工具
97.90
16 / 105
AIME 2024思考 + 使用工具
96.60
2 / 62
AIME2025思考
83
49 / 105

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench思考
22.10
26 / 27

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench常规
69
10 / 25
查看评测深度分析与其他模型对比
GPT OSS 120B

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT Opensources 120B

模型解读

OpenAI 在 2025 年 8 月推出了 gpt-oss-120b,这是一款开源权重的大规模推理模型,采用 Mixture-of-Experts(MoE)架构,定位为高性价比的可部署推理方案。模型权重与推理实现以 Apache-2.0 许可发布,并配套了使用政策文件,确保在开放使用的同时兼顾合规性与安全性。

该模型的设计目标是在单卡 80GB GPU 环境下运行完整 120B 参数版本,同时保持较高的推理性能和可扩展性。通过精心的路由策略与稀疏激活,gpt-oss-120b 在多项评测中表现接近 OpenAI 的 o4-mini,并支持完整的链式思考输出与工具调用。


核心架构特性

  • 层数与专家:36 层 Transformer,每层 MoE 模块含 128 个专家,推理时激活 Top-4。
  • 注意力机制:交替的稀疏带状窗口与全局密集注意力。
  • 参数规模:总参数约 1168 亿,但每次推理仅激活约 51 亿参数。
  • 上下文长度:原生支持 131,072 个 token,采用 RoPE 与 YaRN 扩展。
  • 显存需求:单卡 80GB 可运行全量版本,另有 20B 精简版适配 16GB 设备。

这些设计让模型在保持规模的同时显著降低了单次推理成本,也为部署在本地或云端提供了更灵活的选择。


训练与对齐

gpt-oss-120b 在大规模混合数据上训练,涵盖通用文本、编程与 STEM 领域,知识更新至 2024 年 6 月。训练完成后,模型经过监督微调和强化学习优化,不同任务可切换推理努力等级,并支持输出完整的推理链路。

它使用 harmony 格式进行对话交互,官方提供了渲染模板和配套库,方便开发者快速集成到已有系统中。


评测表现

在 AIME、HLE、MMLU、GPQA 等基准上,gpt-oss-120b 的得分普遍高于 o3-mini,部分任务接近 o4-mini。在代码生成、数学推理和工具调用方面表现稳定,但在事实性问答和指令防御上略有不足,幻觉率高于 o4-mini。这意味着在生产部署中,最好配合检索、浏览与结果验证机制,以确保可靠性。


GPT-OSS-120B的评测对比可以参考:


安全性与稳健性

OpenAI 对 gpt-oss-120b 进行了对抗性安全评估,包括在生物、化学和网络安全领域的微调实验,未达到高风险能力阈值。在拒绝越狱的表现上与 o4-mini 接近,但在复杂提示注入的防御上略逊一筹。


部署与生态

开发者可以通过 Hugging Face 获取权重,并使用官方提供的 PyTorch、Triton、Metal 实现进行本地推理。模型兼容 Transformers、vLLM、Ollama、LM Studio 等主流推理框架,也已在部分云平台上线。对于需要在低显存硬件上运行的场景,可选择 20B 参数版本作为替代。


总结


gpt-oss-120b 在开源权重模型中,结合了大规模 MoE 架构、高推理性能和较低的部署门槛,为企业和开发者提供了一个可控、可定制的推理模型选择。虽然在部分稳健性和事实性上仍有改进空间,但在数据主权、离线可用性和工具集成等方面具有明显优势。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码