Cl

Claude Opus 4.1

推理大模型

Claude Opus 4.1

发布时间: 2025-08-06

453
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
200K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

200K tokens

最长输出结果

32000 tokens

模型类型

推理大模型

发布时间

2025-08-06

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 15 美元/ 100万tokens 75 美元/100万tokens

Claude Opus 4.1模型在各大评测榜单的评分

综合评估

共 4 项评测
GPQA Diamond thinking
81
29 / 133
GPQA Diamond thinking + 使用工具
80.90
32 / 133
LiveBench thinking
75.25
7 / 48
LiveBench normal
67.77
25 / 48

编程与软件工程

共 3 项评测
SWE-bench Verified parallel_thinking + 使用工具
79.40
3 / 66
74.50
9 / 66
SWE-bench Verified thinking + 使用工具
74.50
9 / 66

数学推理

共 7 项评测
AIME2025 thinking
78
46 / 93
AIME2025 thinking + 使用工具
78
46 / 93
IOI 2024 normal
18.70
3 / 10
IOI 2025 normal
11.70
4 / 9
FrontierMath thinking
7.20
21 / 48
FrontierMath normal
5.90
23 / 48
4.20
6 / 25

Agent能力评测

共 2 项评测
Terminal-Bench thinking
46.50
6 / 36
Terminal-Bench thinking + 使用工具
43.30
10 / 36

常识推理

共 1 项评测
Simple Bench thinking
60
5 / 24

发布机构

Claude Opus 4.1模型解读

Anthropic 于 2025 年 8 月 5 日发布了其最新模型 Claude Opus 4.1,这是对其先前旗舰模型 Claude Opus 4 的一次升级。本次更新主要增强了模型在智能代理任务 (agentic tasks)、真实世界编码以及推理方面的能力,同时保持了与前代产品相同的定价。

核心亮点:编码与推理能力的提升

Claude Opus 4.1 在多个基准测试中展现了其性能的提升,尤其是在编码领域。根据 Anthropic 公布的数据,该模型在 SWE-bench Verified(一个衡量修复真实世界 GitHub 问题的能力的基准)上的得分达到了 74.5%。

除了编码能力的精进,Opus 4.1 还在深度研究和数据分析技能上有所提高,特别是在细节跟踪和智能代理搜索方面。GitHub 的报告指出,Opus 4.1 在多文件代码重构方面有显著的性能增长。同时,日本乐天集团 (Rakuten Group) 发现,该模型在大型代码库中能精准定位并修正问题,而不会引入不必要的调整或错误。

其他性能指标

根据 Anthropic 提供的基准测试表格,Claude Opus 4.1 在多个方面均优于 Opus 4,尽管部分提升幅度较小。

  • 研究生水平推理 (GPQA Diamond): 从 79.6% 提升至 80.9%
  • 多语言问答 (MMMLU): 从 88.8% 提升至 89.5%
  • 高中数学竞赛 (AIME 2025): 从 75.5% 提升至 78.0%

值得注意的是,在“智能代理工具使用” (Agentic tool use) 的一项特定基准测试(航空公司类别)中,其得分略有下降。

定价与可用性

Claude Opus 4.1 的定价与 Opus 4 保持一致。该模型已向付费的 Claude 用户、Claude Code 用户以及通过 API 开放。此外,用户还可以通过亚马逊的 Amazon Bedrock 和谷歌云的 Vertex AI 等云平台接入使用。

安全性与市场反响

Anthropic 表示,尽管 Opus 4.1 是一个增量升级,公司仍对其进行了安全评估,以确保其风险在可接受范围内。在无害性方面,该模型拒绝违反政策请求的比例有所上升。

从市场反响来看,部分用户认为这是一次有效的迭代,特别是在处理复杂的编程任务时。然而,也有评论指出,对于日常或不太复杂的任务,其提升感知可能不明显,且高昂的成本仍然是用户考量的主要因素之一。Anthropic 预告,未来几周内将发布更大幅度的模型改进。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat