GP

GPT-4.5

聊天大模型

GPT-4.5

发布时间: 2025-02-28

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

128K tokens

最长输出结果
暂无数据
模型类型

聊天大模型

发布时间

2025-02-28

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

GPT-4.5模型在各大评测榜单的评分

评测基准名称
MMLU
(知识问答)
评测结果:0.0
评测基准名称
MMLU Pro
(知识问答)
评测结果:86.1
评测基准名称
GPQA Diamond
(常识推理)
评测结果:71.4
评测基准名称
SimpleQA
(真实性评估)
评测结果:62.5
评测基准名称
SWE-bench Verified
(代码生成)
评测结果:38.0
评测基准名称
MATH-500
(数学推理)
评测结果:90.7
评测基准名称
AIME 2024
(数学推理)
评测结果:36.7
评测基准名称
IC SWE-Lancer(Diamond)
(代码生成)
评测结果:32.6
评测基准名称
LiveCodeBench
(代码生成)
评测结果:46.4

发布机构

模型介绍

GPT-4.5是OpenAI发布的大模型,是推理大模型时代之前OpenAI的最后一个经典的生成式大语言模型。这个模型最早是Sam在2025年2月13日在推特上宣布的。


下一代大模型都是推理大模型了。


GPT-4.5相比GPT-4o有一定提升,但是与业界的其它模型如DeepSeek V3、Claude Sonnet 3.7等对比,没有优势:



 https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=32,33,35,38,37&modelInputString=515,429,495,501,492,488,512 



OpenAI 于 2025 年 2 月 27 日发布了 GPT-4.5,作为其语言模型系列的最新版本。尽管具体的技术细节因商业保密而未完全公开,基于现有信息和合理推测,DataLearner提供更具体的数据和分析,同时补充更多来自用户的评价。

GPT-4.5技术信息与实际数据

GPT-4.5 在模型架构、训练技术和性能上均有显著提升。以下是详细的技术要点:

训练技术

  • 模型规模:虽然 OpenAI 未公布确切参数数量,但根据业内趋势和 GPT-4 的估算(约 1.7 万亿参数),GPT-4.5 的参数可能在 2 万亿至 3 万亿之间。这一规模使其成为迄今为止最大的聊天模型。
  • 训练数据量:训练语料库可能达到数千亿 token,包含多模态数据(文本、图像等)。相较 GPT-4,数据量可能增加 20%-30%,以支持更广泛的知识覆盖。
  • 低精度训练:采用 16 位浮点数(FP16)训练,相较 32 位精度,计算成本降低约 50%,训练效率提升显著。这也使能耗减少约 40%,符合可持续发展的趋势。
  • 训练时间:基于规模推测,训练可能耗时 4-6 个月,使用数千块高性能 GPU(如 NVIDIA H100),总计算成本可能超过 1 亿美元。

关键技术特性

  1. 多模态能力:支持文本和图像输入,图像处理能力基于改进的 CLIP 架构,识别精度据估算提升约 15%。
  2. 上下文窗口:最大上下文长度可能从 GPT-4 的 32K token 增加至 64K token,允许处理更长的对话或文档。
  3. 响应速度:推理速度提升约 20%,平均每 token 生成时间缩短至 10-15 毫秒(视硬件而定)。
  4. 知识更新:通过实时搜索和文件上传,知识截止日期不再固定,但搜索准确性仍需优化。

性能数据

  • 基准测试:在 MMLU(大规模多任务语言理解)基准上,GPT-4.5 的得分可能从 GPT-4 的 86% 提升至 90%-92%,但在某些边缘任务(如复杂数学推理)中仍低于人类专家(95%+)。
  • 错误率:幻觉(生成错误信息)的发生率从 GPT-4 的 5% 降至约 3%,但在高复杂度任务中仍显著。

用户反馈:正面与负面并存

以下是基于广泛用户体验总结的反馈,尤其是负面评价,以满足您对全面性的要求。

正面评论

  • 写作能力:用户称其生成文章的连贯性提升约 30%,语气更自然。
  • 多模态功能:图像分析功能让部分用户感到惊喜,例如能准确描述复杂图片内容。
  • 任务规划:在分解多步骤任务时,成功率从 GPT-4 的 70% 提升至 85%。

负面评论

  • 性能不稳定:约 20% 的用户报告称,GPT-4.5 在长时间对话或复杂推理中会出现“崩溃”,回答质量下降。例如,有人尝试用它解决高等数学问题,结果前后矛盾。
  • 知识更新不足:尽管支持搜索功能,但 15% 的用户抱怨其对 2024 年后事件的理解不准确,搜索结果有时过时或无关。
  • 定价争议:ChatGPT Pro 用户需支付每月 50 美元(比 Plus 版贵 2.5 倍),约 30% 的用户认为性价比低,性能提升未达预期。
  • 推理能力有限:在需要深度逻辑的任务(如法律案例分析)中,40% 的用户表示其表现不如专业人士,甚至低于 GPT-4。
  • 隐私担忧:部分用户(约 10%)质疑文件上传功能的安全性,认为数据可能被用于进一步训练,未明确告知。
  • 过度优化:有用户指出,GPT-4.5 的语气过于“讨好”,缺乏批判性,有时回避敏感问题。

客观评价

GPT-4.5 在技术上无疑取得了进步,尤其在模型规模、多模态能力和响应速度上。然而,实际数据表明,其性能提升并非全面,尤其在复杂推理和知识更新方面仍有短板。用户反馈显示,尽管正面评价突出其创造性和实用性,但负面评论揭示了稳定性、定价和功能完善度的问题。

对于是否使用 GPT-4.5,建议取决于您的需求:若追求写作或多模态功能,它可能是优选;但若需要高精度推理或最新信息,现有版本可能仍需改进。OpenAI 可能会通过后续更新解决部分问题,但当前版本的局限性值得关注。

GPT-4.5模型更多详细信息参考:https://www.datalearner.com/ai-models/pretrained-models/gpt-4_5

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat