加载中...

GPT-4.1

Name: GPT-4.1
Availability: InStock
Author: OpenAI

Release date: 2025-04-14更新于: 2025-04-15 11:42:231,217

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1024K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GPT-4.1

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

1024K tokens

Max output length

32768 tokens

Model type

聊天大模型

Release date

2025-04-14

Model file size

No data

MoE architecture

Total params / Active params

No data / N/A

Knowledge cutoff

No data

GPT-4.1

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

No live demo

GPT-4.1

Official resources

Paper

Introducing GPT-4.1 in the API

DataLearnerAI blog

No blog post yet

GPT-4.1

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Text	$2	$8
Image	$2	--

GPT-4.1

Benchmark Results

GPT-4.1 currently shows benchmark results led by MMLU (8 / 64, score 90.20), GSM8K (5 / 26, score 95.90), MMLU Pro (46 / 115, score 80.50). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

MMLU

Off

90.20

8 / 64

MMLU Pro

Off

80.50

46 / 115

GPQA Diamond

Off

66.30

110 / 162

HLE

Off

3.70

118 / 119

数学推理

6 evaluations

Benchmark / mode

Score

Rank/total

GSM8K

Off

95.90

5 / 26

MATH-500

Off

92.80

30 / 43

AIME 2024

Off

48.10

50 / 62

AIME2025

Off

36.70

99 / 107

FrontierMath

Off

5.50

31 / 54

FrontierMath - Tier 4

Off

0.01

27 / 34

阅读理解

1 evaluations

Benchmark / mode

Score

Rank/total

DROP

Off

89.20

4 / 9

编程与软件工程

4 evaluations

Benchmark / mode

Score

Rank/total

SWE-bench Verified

Off

54.60

69 / 93

LiveCodeBench

Off

40.50

88 / 108

SWE Manager Lancer(Diamond)

Off

35.10

1 / 1

IC SWE-Lancer(Diamond)

Off

14.40

8 / 8

常识推理

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Off

23 / 27

View benchmark analysis Compare with other models

GPT-4.1

Publisher

OpenAI

View publisher details

GPT-4.1

Model Overview

GPT-4.1是OpenAI发布的最新模型，作为其AI技术演进的里程碑，该模型在编码能力、指令遵循、长上下文理解等核心领域实现了显著提升。与此同时，OpenAI还推出了轻量化版本GPT-4.1 mini与GPT-4.1 nano，分别面向不同场景的开发者需求。尽管这两个衍生模型在成本和效率上表现优异，但GPT-4.1凭借全面的技术升级与行业领先的综合性能，仍是本次发布的核心焦点。以下从技术参数、性能表现与应用场景全面解析这一旗舰模型。

GPT-4.1的核心升级

1. 编码能力：软件工程的革命性工具

GPT-4.1在真实开发场景中的表现远超前代模型，成为目前最强大的AI编程助手：

SWE-bench Verified（真实代码修复任务）：以54.6%的准确率完成问题修复，较GPT-4o（33.2%）提升21.4%，较GPT-4.5（38%）提升26.6%。
Aider多语言代码编辑：在“diff格式”编辑任务中得分52.9%（GPT-4o仅18.2%），支持仅输出代码变更而非全文件重写，降低开发者成本。
前端开发实战：生成网页应用时，人类评审员在80%的对比测试中更倾向选择GPT-4.1的代码，其功能完整性与界面美观度显著提升。

2. 指令遵循：精准响应复杂需求

通过优化多轮对话理解与复杂指令解析，GPT-4.1在以下场景表现突出：

Scale的MultiChallenge基准测试：得分38.3%，较GPT-4o（27.8%）提升10.5%，验证其在多轮交互中维持上下文连贯的能力。
格式控制与负向指令：在内部硬性任务评测中，准确率49.1%（GPT-4o为29.2%），避免冗余修改的概率从9%降至2%。
IFEval测试：以87.4%的严格指令遵循率（GPT-4o为81%），满足法律、金融等对输出格式敏感的场景需求。

3. 长上下文处理：百万Token支持与多跳推理

GPT-4.1支持1 million tokens上下文窗口（约800万单词），并优化了长文本理解能力：

OpenAI-MRCR测试：在128K Token上下文内，对2/4/8条隐藏指令的检索准确率分别为57.2%、47.2%、36.6%，远超GPT-4o（31.9%、24.5%）。
Graphwalks基准测试（图结构广度优先搜索）：61.7%的准确率领先GPT-4o（41.7%），匹配专用推理模型（如o1）。
实际场景验证：法律分析平台Thomson Reuters使用GPT-4.1进行多文档审查时，准确率提升17%；私募机构Carlyle在百万Token财务报告中提取数据时，性能提升50%。

4. 多模态能力：视觉理解再升级

尽管未直接集成至ChatGPT，GPT-4.1在API中的多模态表现亮眼：

MMMU（多学科视觉理解）：得分75%，较GPT-4o（69%）提升6%。
MathVista（视觉数学推理）：72.2%准确率，较前代提升10.8%。
Video-MME长视频理解：在30-60分钟无字幕视频问答任务中，以72%准确率刷新行业纪录（GPT-4o为65.3%）。

模型家族定位：mini与nano的辅助角色

为满足不同场景需求，OpenAI同步推出两款轻量化模型，但其设计目标与性能边界明确服务于GPT-4.1的生态补充：

GPT-4.1 mini定位：平衡成本与性能，适用于常规任务。关键数据：延迟降低50%，成本为GPT-4o的17%，MMLU得分87.5%（接近GPT-4o的85.7%）。局限：长上下文处理与复杂编码任务性能显著弱于GPT-4.1。
GPT-4.1 nano定位：极致轻量化，专注低延迟场景（如实时分类、补全）。关键数据：首Token响应时间<5秒（128K输入），成本低至$0.12/百万Token，但MMLU得分仅80.1%，无法支撑复杂逻辑任务。

模型	核心优势	适用场景	性能边界（vs. GPT-4.1）
GPT-4.1	全能型，行业最高性能	复杂编码、长文档分析、多模态	基准领先20%-50%
GPT-4.1 mini	高性价比，延迟减半	常规问答、基础代码生成	编码任务性能为GPT-4.1的43%
GPT-4.1 nano	超低延迟与成本	实时分类、自动补全	知识密集型任务性能下降15%-30%

技术参数与定价策略

1. 关键参数

上下文窗口：1 million tokens（全系列支持）。
知识截止：2024年6月（较GPT-4o更新6个月）。
输出限制：32,768 tokens（较GPT-4o翻倍）。

2. API定价

模型	输入（$/1M Token）	输出（$/1M Token）	长上下文附加费
GPT-4.1	$2.00	$8.00	无
GPT-4.1 mini	$0.40	$1.60	无
GPT-4.1 nano	$0.10	$0.40	无

注：GPT-4.1的混合定价（输入+输出）为$1.84/百万Token，成本较GPT-4o降低26%。

开发者价值与行业影响

编码生产力跃升代码审核平台Windsurf实测显示，GPT-4.1的代码修改首次通过率提升60%，工具调用效率提高30%。开发工具Hex在复杂SQL生成任务中，错误率降低50%，减少人工调试时间。
长上下文场景突破法律文档分析：可一次性处理超800页合同，识别冲突条款的准确率提升17%。金融数据处理：从百万Token财报中提取关键指标的效率提高50%。
智能代理（Agents）进化结合Responses API，开发者可构建自主任务执行系统，例如：自动化软件工程：根据需求生成可运行代码并通过测试。客户请求处理：仅需少量人工干预即可解决复杂问题。

总结与展望

GPT-4.1通过百万级上下文支持、编码能力强化与指令遵循优化，重新定义了AI模型的实用边界。尽管GPT-4.1 mini与nano为轻量化需求提供了高性价比选项，但GPT-4.1仍是OpenAI技术实力的集中体现，尤其在复杂任务中展现出的可靠性，使其成为企业级应用的首选。随着GPT-4.5预览版于2025年7月停用，开发者可无缝迁移至GPT-4.1，探索自动化代理、多模态分析等前沿场景，进一步释放AI的生产力潜能。

OpenAI表示，未来将持续优化模型效率，并将GPT-4.5的创意与幽默风格融入后续版本，推动技术实用性与用户体验的双重进化。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

GPT-4.1

Release date: 2025-04-14更新于: 2025-04-15 11:42:231,217

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1024K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GPT-4.1

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

1024K tokens

Max output length

32768 tokens

Model type

聊天大模型

Release date

2025-04-14

Model file size

No data

MoE architecture

Total params / Active params

No data / N/A

Knowledge cutoff

No data

GPT-4.1

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

No live demo

GPT-4.1

Official resources

Paper

Introducing GPT-4.1 in the API

DataLearnerAI blog

No blog post yet

GPT-4.1

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Text	$2	$8
Image	$2	--

GPT-4.1

Benchmark Results

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

MMLU

Off

90.20

8 / 64

MMLU Pro

Off

80.50

46 / 115

GPQA Diamond

Off

66.30

110 / 162

HLE

Off

3.70

118 / 119

数学推理

6 evaluations

Benchmark / mode

Score

Rank/total

GSM8K

Off

95.90

5 / 26

MATH-500

Off

92.80

30 / 43

AIME 2024

Off

48.10

50 / 62

AIME2025

Off

36.70

99 / 107

FrontierMath

Off

5.50

31 / 54

FrontierMath - Tier 4

Off

0.01

27 / 34

阅读理解

1 evaluations

Benchmark / mode

Score

Rank/total

DROP

Off

89.20

4 / 9

编程与软件工程

4 evaluations

Benchmark / mode

Score

Rank/total

SWE-bench Verified

Off

54.60

69 / 93

LiveCodeBench

Off

40.50

88 / 108

SWE Manager Lancer(Diamond)

Off

35.10

1 / 1

IC SWE-Lancer(Diamond)

Off

14.40

8 / 8

常识推理

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Off

23 / 27

View benchmark analysis Compare with other models

GPT-4.1

Publisher

OpenAI

View publisher details

GPT-4.1

Model Overview

GPT-4.1的核心升级

1. 编码能力：软件工程的革命性工具

GPT-4.1在真实开发场景中的表现远超前代模型，成为目前最强大的AI编程助手：

SWE-bench Verified（真实代码修复任务）：以54.6%的准确率完成问题修复，较GPT-4o（33.2%）提升21.4%，较GPT-4.5（38%）提升26.6%。
Aider多语言代码编辑：在“diff格式”编辑任务中得分52.9%（GPT-4o仅18.2%），支持仅输出代码变更而非全文件重写，降低开发者成本。
前端开发实战：生成网页应用时，人类评审员在80%的对比测试中更倾向选择GPT-4.1的代码，其功能完整性与界面美观度显著提升。

2. 指令遵循：精准响应复杂需求

通过优化多轮对话理解与复杂指令解析，GPT-4.1在以下场景表现突出：

Scale的MultiChallenge基准测试：得分38.3%，较GPT-4o（27.8%）提升10.5%，验证其在多轮交互中维持上下文连贯的能力。
格式控制与负向指令：在内部硬性任务评测中，准确率49.1%（GPT-4o为29.2%），避免冗余修改的概率从9%降至2%。
IFEval测试：以87.4%的严格指令遵循率（GPT-4o为81%），满足法律、金融等对输出格式敏感的场景需求。

3. 长上下文处理：百万Token支持与多跳推理

GPT-4.1支持1 million tokens上下文窗口（约800万单词），并优化了长文本理解能力：

OpenAI-MRCR测试：在128K Token上下文内，对2/4/8条隐藏指令的检索准确率分别为57.2%、47.2%、36.6%，远超GPT-4o（31.9%、24.5%）。
Graphwalks基准测试（图结构广度优先搜索）：61.7%的准确率领先GPT-4o（41.7%），匹配专用推理模型（如o1）。
实际场景验证：法律分析平台Thomson Reuters使用GPT-4.1进行多文档审查时，准确率提升17%；私募机构Carlyle在百万Token财务报告中提取数据时，性能提升50%。

4. 多模态能力：视觉理解再升级

尽管未直接集成至ChatGPT，GPT-4.1在API中的多模态表现亮眼：

MMMU（多学科视觉理解）：得分75%，较GPT-4o（69%）提升6%。
MathVista（视觉数学推理）：72.2%准确率，较前代提升10.8%。
Video-MME长视频理解：在30-60分钟无字幕视频问答任务中，以72%准确率刷新行业纪录（GPT-4o为65.3%）。

模型家族定位：mini与nano的辅助角色

为满足不同场景需求，OpenAI同步推出两款轻量化模型，但其设计目标与性能边界明确服务于GPT-4.1的生态补充：

GPT-4.1 mini定位：平衡成本与性能，适用于常规任务。关键数据：延迟降低50%，成本为GPT-4o的17%，MMLU得分87.5%（接近GPT-4o的85.7%）。局限：长上下文处理与复杂编码任务性能显著弱于GPT-4.1。
GPT-4.1 nano定位：极致轻量化，专注低延迟场景（如实时分类、补全）。关键数据：首Token响应时间<5秒（128K输入），成本低至$0.12/百万Token，但MMLU得分仅80.1%，无法支撑复杂逻辑任务。

模型	核心优势	适用场景	性能边界（vs. GPT-4.1）
GPT-4.1	全能型，行业最高性能	复杂编码、长文档分析、多模态	基准领先20%-50%
GPT-4.1 mini	高性价比，延迟减半	常规问答、基础代码生成	编码任务性能为GPT-4.1的43%
GPT-4.1 nano	超低延迟与成本	实时分类、自动补全	知识密集型任务性能下降15%-30%

技术参数与定价策略

1. 关键参数

上下文窗口：1 million tokens（全系列支持）。
知识截止：2024年6月（较GPT-4o更新6个月）。
输出限制：32,768 tokens（较GPT-4o翻倍）。

2. API定价

模型	输入（$/1M Token）	输出（$/1M Token）	长上下文附加费
GPT-4.1	$2.00	$8.00	无
GPT-4.1 mini	$0.40	$1.60	无
GPT-4.1 nano	$0.10	$0.40	无

注：GPT-4.1的混合定价（输入+输出）为$1.84/百万Token，成本较GPT-4o降低26%。

开发者价值与行业影响

编码生产力跃升代码审核平台Windsurf实测显示，GPT-4.1的代码修改首次通过率提升60%，工具调用效率提高30%。开发工具Hex在复杂SQL生成任务中，错误率降低50%，减少人工调试时间。
长上下文场景突破法律文档分析：可一次性处理超800页合同，识别冲突条款的准确率提升17%。金融数据处理：从百万Token财报中提取关键指标的效率提高50%。
智能代理（Agents）进化结合Responses API，开发者可构建自主任务执行系统，例如：自动化软件工程：根据需求生成可运行代码并通过测试。客户请求处理：仅需少量人工干预即可解决复杂问题。

总结与展望

OpenAI表示，未来将持续优化模型效率，并将GPT-4.5的创意与幽默风格融入后续版本，推动技术实用性与用户体验的双重进化。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送