GPT-5.1

Name: GPT-5.1
Author: OpenAI

推理大模型GPTGPT-5.1

GPT-5.1

发布时间: 2025-11-12更新于: 2026-06-15 07:18:15.415976

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

GPT-5.1 是由 OpenAI 发布的 AI 模型，发布时间为 2025-11-12，定位为推理大模型，上下文长度为 400K，采用不开源许可，在 τ²-Bench - Telecom 上取得 95.60 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.1

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

400K tokens

最大输出长度

128K tokens

模型类型

推理大模型

输入/输出模态

文本、图像 → 文本

发布时间

2025-11-12

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5.1

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/

GPT-5.1

官方介绍与博客

官方论文

GPT-5.1: A smarter, more conversational ChatGPT

DataLearnerAI博客

OpenAI发布GPT-5.1：围绕“对话体验、一致性、任务适配性”进行的系统化优化的小幅更新！

GPT-5.1

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

GPT-5.1

评测结果

GPT-5.1 当前已收录的代表性评测结果包括 MMMU（2 / 28，得分 85.40）、Terminal Bench Hard（2 / 13，得分 43）、GPQA Diamond（30 / 180，得分 88.10）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 16 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

88.10

30 / 180

GPQA Diamond

88.10

30 / 180

GPQA Diamond

高

88.10

30 / 180

ARC-AGI

72.80

25 / 65

ARC-AGI

57.70

37 / 65

ARC-AGI

33.20

50 / 65

LiveBench

常规模式

42.65

106 / 115

LiveBench

低

59.95

71 / 115

LiveBench

中

69.17

41 / 115

LiveBench

高

72.04

29 / 115

HLE

26.50

89 / 163

HLE

高

25.70

91 / 163

HLE

高工具联网

42.70

47 / 163

ARC-AGI-2

17.60

33 / 59

ARC-AGI-2

6.50

41 / 59

ARC-AGI-2

1.90

50 / 59

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

76.30

31 / 109

SWE-bench Verified

高工具

76.30

31 / 109

IC SWE-Lancer(Diamond)

高

69.70

3 / 8

SWE-Bench Pro - Public

高

50.80

32 / 45

数学推理

共 6 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

28 / 106

AIME2025

高

28 / 106

FrontierMath

高工具

26.70

13 / 60

FrontierMath - Tier 4

中

4.20

40 / 80

FrontierMath - Tier 4

高

12.50

29 / 80

FrontierMath - Tier 4

高工具

12.50

29 / 80

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

85.40

2 / 28

MMMU

高

85.40

2 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

高

53.20

23 / 63

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

高工具

95.60

14 / 35

Terminal Bench Hard

高工具

2 / 13

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高

50.80

38 / 47

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

MCP-Atlas

高工具

50.10

22 / 24

Terminal Bench 2.0

高工具

47.60

37 / 46

查看评测深度分析与其他模型对比

和其他模型对比

想自定义其他组合？打开对比工具

GPT-5.1

发布机构

OpenAI

查看发布机构详情

GPT-5.1

模型解读

2025年11月12日，OpenAI正式发布了GPT-5.1模型，其中GPT-5.1 Thinking是推理版本的模型，在官方的介绍中，是用于替换GPT-5的，对简单问题比 GPT-5 Thinking 更快，但对难任务会刻意拉长推理时间换准确率；典型「慢工出细活」。目前，付费用户已经可以在ChatGPT网站使用，但是模型的API和更多信息并没有在当天披露。

-------------------以下为此前暴露信息----------------

在 GPT-5.1 相关泄露信息中，GPT-5.1 Reasoning 被多次提及为该家族中的推理强化版本，与基础的 GPT-5.1 和面向企业场景的 GPT-5.1 Pro 共同构成三成员模型系列。

根据 TestingCatalog 的整理以及社交媒体上对前端代码的截图，OpenAI 内部配置中出现了以 GPT-5.1 Reasoning 命名的条目，与 GPT-5.1 Pro 一同被描述为针对企业与高强度推理工作负载的变体。与此同时，GPT-5.1 Thinking 这一内部标识在 ChatGPT 的后端代码中被发现，并被多家科技媒体解读为优化多步推理与更为审慎回答过程的配置，用于处理复杂问题求解与长链条规划任务。

在开源报道中，GPT-5.1 Reasoning 通常被视为承接 GPT-5 Pro 系列“扩展推理能力”定位的后续版本：通过更长的思考过程、更高的计算预算以及更精细的推理策略来提升在复杂推理任务、研究级问题以及多步骤工具调用场景中的稳定性。然而，目前尚无公开的系统卡或技术报告详细说明该版本的参数规模、上下文窗口、思考预算配置或在标准基准（如 MMLU、GPQA 等）上的具体得分。

因此，从公开可验证的信息出发，可以将 GPT-5.1 Reasoning 谨慎地归类为 GPT-5.1 家族中面向深度推理与多步骤问题求解的强化版本，其核心特点在于对推理路径与答案可靠性的优化，而非仅仅提升生成速度或通用对话体验。关于其具体硬件需求、性能边界以及与基础版 GPT-5.1 的量化差异，目前仍缺乏来自 OpenAI 官方的详细数据说明。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送