GPT-4.5

Name: GPT-4.5
Author: OpenAI

聊天大模型GPTGPT-4.5

GPT-4.5

发布时间: 2025-02-28更新于: 2025-02-28 09:50:061,002

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

128K

中文支持

支持

推理能力

GPT-4.5 是由 OpenAI 发布的 AI 模型，发布时间为 2025-02-28，定位为聊天大模型，上下文长度为 128K，采用不开源许可，在 MATH-500 上取得 90.70 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-4.5

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

128K tokens

最大输出长度

暂无数据

模型类型

聊天大模型

输入/输出模态

文本、图像 → 文本

发布时间

2025-02-28

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-4.5

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

GPT-4.5

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

暂无介绍博客

GPT-4.5

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

GPT-4.5

评测结果

GPT-4.5 当前已收录的代表性评测结果包括 MMLU Pro（18 / 126，得分 86.10）、SimpleQA（8 / 45，得分 62.50）、GPQA Diamond（107 / 180，得分 71.40）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

86.10

18 / 126

GPQA Diamond

71.40

107 / 180

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

62.50

8 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

46.40

95 / 120

SWE-bench Verified

101 / 109

IC SWE-Lancer(Diamond)

32.60

5 / 8

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

MATH-500

90.70

34 / 44

AIME 2024

36.70

53 / 62

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

34.50

46 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

常规模式

44.90

37 / 59

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-4.5

发布机构

OpenAI

查看发布机构详情

GPT-4.5

模型解读

GPT-4.5是OpenAI发布的大模型，是推理大模型时代之前OpenAI的最后一个经典的生成式大语言模型。这个模型最早是Sam在2025年2月13日在推特上宣布的。

下一代大模型都是推理大模型了。

GPT-4.5相比GPT-4o有一定提升，但是与业界的其它模型如DeepSeek V3、Claude Sonnet 3.7等对比，没有优势：

https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=32,33,35,38,37&modelInputString=515,429,495,501,492,488,512

OpenAI 于 2025 年 2 月 27 日发布了 GPT-4.5，作为其语言模型系列的最新版本。尽管具体的技术细节因商业保密而未完全公开，基于现有信息和合理推测，DataLearner提供更具体的数据和分析，同时补充更多来自用户的评价。

GPT-4.5技术信息与实际数据

GPT-4.5 在模型架构、训练技术和性能上均有显著提升。以下是详细的技术要点：

训练技术

模型规模：虽然 OpenAI 未公布确切参数数量，但根据业内趋势和 GPT-4 的估算（约 1.7 万亿参数），GPT-4.5 的参数可能在 2 万亿至 3 万亿之间。这一规模使其成为迄今为止最大的聊天模型。
训练数据量：训练语料库可能达到数千亿 token，包含多模态数据（文本、图像等）。相较 GPT-4，数据量可能增加 20%-30%，以支持更广泛的知识覆盖。
低精度训练：采用 16 位浮点数（FP16）训练，相较 32 位精度，计算成本降低约 50%，训练效率提升显著。这也使能耗减少约 40%，符合可持续发展的趋势。
训练时间：基于规模推测，训练可能耗时 4-6 个月，使用数千块高性能 GPU（如 NVIDIA H100），总计算成本可能超过 1 亿美元。

关键技术特性

多模态能力：支持文本和图像输入，图像处理能力基于改进的 CLIP 架构，识别精度据估算提升约 15%。
上下文窗口：最大上下文长度可能从 GPT-4 的 32K token 增加至 64K token，允许处理更长的对话或文档。
响应速度：推理速度提升约 20%，平均每 token 生成时间缩短至 10-15 毫秒（视硬件而定）。
知识更新：通过实时搜索和文件上传，知识截止日期不再固定，但搜索准确性仍需优化。

性能数据

基准测试：在 MMLU（大规模多任务语言理解）基准上，GPT-4.5 的得分可能从 GPT-4 的 86% 提升至 90%-92%，但在某些边缘任务（如复杂数学推理）中仍低于人类专家（95%+）。
错误率：幻觉（生成错误信息）的发生率从 GPT-4 的 5% 降至约 3%，但在高复杂度任务中仍显著。

用户反馈：正面与负面并存

以下是基于广泛用户体验总结的反馈，尤其是负面评价，以满足您对全面性的要求。

正面评论

写作能力：用户称其生成文章的连贯性提升约 30%，语气更自然。
多模态功能：图像分析功能让部分用户感到惊喜，例如能准确描述复杂图片内容。
任务规划：在分解多步骤任务时，成功率从 GPT-4 的 70% 提升至 85%。

负面评论

性能不稳定：约 20% 的用户报告称，GPT-4.5 在长时间对话或复杂推理中会出现“崩溃”，回答质量下降。例如，有人尝试用它解决高等数学问题，结果前后矛盾。
知识更新不足：尽管支持搜索功能，但 15% 的用户抱怨其对 2024 年后事件的理解不准确，搜索结果有时过时或无关。
定价争议：ChatGPT Pro 用户需支付每月 50 美元（比 Plus 版贵 2.5 倍），约 30% 的用户认为性价比低，性能提升未达预期。
推理能力有限：在需要深度逻辑的任务（如法律案例分析）中，40% 的用户表示其表现不如专业人士，甚至低于 GPT-4。
隐私担忧：部分用户（约 10%）质疑文件上传功能的安全性，认为数据可能被用于进一步训练，未明确告知。
过度优化：有用户指出，GPT-4.5 的语气过于“讨好”，缺乏批判性，有时回避敏感问题。

客观评价

GPT-4.5 在技术上无疑取得了进步，尤其在模型规模、多模态能力和响应速度上。然而，实际数据表明，其性能提升并非全面，尤其在复杂推理和知识更新方面仍有短板。用户反馈显示，尽管正面评价突出其创造性和实用性，但负面评论揭示了稳定性、定价和功能完善度的问题。

对于是否使用 GPT-4.5，建议取决于您的需求：若追求写作或多模态功能，它可能是优选；但若需要高精度推理或最新信息，现有版本可能仍需改进。OpenAI 可能会通过后续更新解决部分问题，但当前版本的局限性值得关注。

GPT-4.5模型更多详细信息参考：https://www.datalearner.com/ai-models/pretrained-models/gpt-4_5

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送