页面加载中,请稍候…
GPT-4.5
OpenAI o1
OpenAI o3-mini (high)
DeepSeek-R1
DeepSeek-V3
Claude Sonnet 3.7
支持不同模式与工具的榜单对比。
模式筛选
选择思考模式 / 工具使用 / 是否去除并行,更新下方柱状对比。
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
评测得分表格
直观查看各模型/模式在每个评测基准上的得分。
| 评测基准 | GP GPT-4.5OpenAI | GP GPT-4oOpenAI | OP OpenAI o1OpenAI | OP OpenAI o3-mini (high)OpenAI | DE DeepSeek-R1DeepSeek-AI | DE DeepSeek-V3DeepSeek-AI | CL Claude Sonnet 3.7Anthropic |
|---|---|---|---|---|---|---|---|
| 综合评估 | |||||||
GPQA Diamond | 71.40 | 70.10 | 77.30 | 79.70 | 71.50 | 59.10 | 68.00 |
| 常识问答 | |||||||
SimpleQA | 62.50 | 38.20 | 42.60 | 13.80 | 30.10 | 24.90 | — |
| 编程与软件工程 | |||||||
SWE-bench Verified | 38.00 | 31.00 | 48.90 | 49.30 | 49.20 | — | 70.30 |
IC SWE-Lancer(Diamond) | 32.60 | 23.30 | — | — | — | — | — |
| 数学推理 | |||||||
AIME 2024 | 36.70 | 9.30 | 79.20 | 87.00 | 79.80 | 39.00 | 23.30 |
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | GP GPT-4.5OpenAI | GP GPT-4oOpenAI | OP OpenAI o1OpenAI | OP OpenAI o3-mini (high)OpenAI | DE DeepSeek-R1DeepSeek-AI | DE DeepSeek-V3DeepSeek-AI | CL Claude Sonnet 3.7Anthropic |
|---|---|---|---|---|---|---|---|
模型信息卡片 | |||||||
开发机构 | OpenAI | OpenAI | OpenAI | OpenAI | DeepSeek-AI | DeepSeek-AI | Anthropic |
模型全名 | GPT-4.5 | GPT-4 Omni | OpenAI o1 | OpenAI o3-mini (high) | DeepSeek-R1 | DeepSeek-V3 | Claude Sonnet 3.7 |
模型简介 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 多模态大模型 | 推理大模型 | 推理大模型 | 推理大模型 | 聊天大模型 | 聊天大模型 |
模型代号 | gpt-4_5 | gpt-4o | openai-o1 | openai-o3-mini-high | DeepSeek-R1 | DeepSeek-V3 | claude-sonnet-3_7 |
发布时间 | 2025-02-28 | 2024-05-13 | 2024-12-05 | 2025-01-31 | 2025-01-20 | 2024-12-26 | 2025-02-25 |
MoE 架构 | 不支持 | 不支持 | 不支持 | 不支持 | 不支持 | 不支持 | 不支持 |
规格与性能 | |||||||
上下文 | 128K | 128K | 128K | 128k | 128K | 128K | 128K |
参数量 | — | — | — | — | 6710 | 6810 | — |
激活参数量 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
模型规模 | 100b | 未知 | 100b | 100b | 100b | 100b | 100b |
模型大小 | 未提供 | 未提供 | 未提供 | 未提供 | 134GB | 687.9 GB | 未提供 |
推理速度 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | |
推理等级 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | |
最大输出 | 未提供 | 16384 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
支持模式 | 暂无模式数据 | 常规模式(Non-Thinking Mode) | 暂无模式数据 | 暂无模式数据 | 暂无模式数据 | 暂无模式数据 | 暂无模式数据 |
开源与许可 | |||||||
代码开源 | 未提供 | 未提供 | 未提供 | 未提供 | 未开源 | 未开源 | 未提供 |
权重开源 | 未提供 | 未提供 | 未提供 | 未提供 | 未开源 | 未提供 | 未提供 |
商业授权 | 不开源 | 不开源 | 不开源 | 不开源 | 免费商用授权 | 免费商用授权 | 不开源 |
模态支持 | |||||||
文本 输入/输出 | 未提供 | / | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
图片 输入/输出 | 未提供 | / | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
音频 输入/输出 | 未提供 | / | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
视频 输入/输出 | 未提供 | / | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
Embedding 输入/输出 | 未提供 | / | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
API 接口详情 | |||||||
文本 价格 | 未提供 | 输入:2.5 美元/100万 tokens输出:10 美元/100万 tokens | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
图片 价格 | 未提供 | 输入:2.5 美元/100万 tokens | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
音频 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
视频 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
Embedding 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
资源与链接 | |||||||
GitHub | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 仓库 | 未提供 |
Hugging Face | 未提供 | 未提供 | 未提供 | 未提供 | 模型页 | 模型页 | 未提供 |
官方页面 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
论文/报告 | Hello GPT-4o | OpenAI o1 System Card | OpenAI o3-mini | DeepSeek_R1.pdf | Introducing DeepSeek-V3 | Claude 3.7 Sonnet and Claude Code | |
DataLearnerAI 博客 | 未提供 | 未提供 | 重磅!OpenAI发布正式版o1模型,推理能力再次提升,且开启商业化使用,每个月200美元不限量使用! | 未提供 | 什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型? | 开源大模型的新里程碑:DeepSeek AI开源6510亿参数的DeepSeek V3模型,评测结果显著好于4050亿参数的Llama3.1 405B,比肩Sonnet 3.5的开源模型 | Anthropic发布Claude 3.7 Sonnet大模型,全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型,评测结果超DeepSeek R1,低于Grok3-Beta Reasoning,免费用户可用 |
API 价格
输入输出 token 价格并排展示
输入输出 token 价格并排展示