Opus 4.1

Name: Claude Opus 4.1
Price: 7.5 USD
Availability: InStock
Author: Anthropic

推理大模型OpusClaude 4.1

Claude Opus 4.1

发布时间: 2025-08-06更新于: 2026-06-15 07:18:21.953知识截止: 2025-01964

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

200K

中文支持

支持

推理能力

Claude Opus 4.1 是由 Anthropic 发布的 AI 模型，发布时间为 2025-08-06，定位为推理大模型，上下文长度为 200K，采用不开源许可，在 MMLU Pro 上取得 88.00 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Opus 4.1

模型基本信息

推理过程

支持

思考模式

思考水平 · 扩展 (Extended) (默认)常规模式

上下文长度

200K tokens

最大输出长度

32K tokens

模型类型

推理大模型

输入/输出模态

文本、图像 → 文本

发布时间

2025-08-06

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

2025-01

Opus 4.1

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai/

Opus 4.1

官方介绍与博客

官方论文

Claude Opus 4.1

DataLearnerAI博客

暂无介绍博客

Opus 4.1

API接口信息

接口速度

2/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$15.00/ 1M	$75.00/ 1M

批量模式

类型	适用条件	输入	输出
文本	-	$7.50/ 1M	$37.50/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$18.75/ 1M	$1.50/ 1M

Opus 4.1

评测结果

Opus 4.1 当前已收录的代表性评测结果包括 MMLU Pro（7 / 126，得分 88）、Terminal-Bench（5 / 35，得分 46.50）、Simple Bench（16 / 63，得分 60）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

扩展

7 / 126

GPQA Diamond

扩展

70 / 179

LiveBench

常规模式

54.45

82 / 115

LiveBench

32K

61.81

60 / 115

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

扩展工具

74.50

36 / 108

数学推理

共 7 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

扩展

60 / 106

IMO 2024

常规模式

18.70

3 / 10

IMO 2025

常规模式

11.70

4 / 9

FrontierMath

常规模式

5.90

35 / 60

FrontierMath

扩展

7.20

33 / 60

FrontierMath - Tier 4

32K

4.20

40 / 80

FrontierMath - Tier 4

扩展

4.20

40 / 80

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

扩展

46.50

5 / 35

Terminal-Bench

扩展工具

43.30

9 / 35

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

扩展

16 / 63

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

扩展工具

22 / 29

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench Hard

扩展工具

9 / 13

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Opus 4.1

发布机构

Anthropic

查看发布机构详情

Claude Opus 4.1

模型解读

Anthropic 于 2025 年 8 月 5 日发布了其最新模型 Claude Opus 4.1，这是对其先前旗舰模型 Claude Opus 4 的一次升级。本次更新主要增强了模型在智能代理任务 (agentic tasks)、真实世界编码以及推理方面的能力，同时保持了与前代产品相同的定价。

核心亮点：编码与推理能力的提升

Claude Opus 4.1 在多个基准测试中展现了其性能的提升，尤其是在编码领域。根据 Anthropic 公布的数据，该模型在 SWE-bench Verified（一个衡量修复真实世界 GitHub 问题的能力的基准）上的得分达到了 74.5%。

除了编码能力的精进，Opus 4.1 还在深度研究和数据分析技能上有所提高，特别是在细节跟踪和智能代理搜索方面。GitHub 的报告指出，Opus 4.1 在多文件代码重构方面有显著的性能增长。同时，日本乐天集团 (Rakuten Group) 发现，该模型在大型代码库中能精准定位并修正问题，而不会引入不必要的调整或错误。

其他性能指标

根据 Anthropic 提供的基准测试表格，Claude Opus 4.1 在多个方面均优于 Opus 4，尽管部分提升幅度较小。

研究生水平推理 (GPQA Diamond): 从 79.6% 提升至 80.9%
多语言问答 (MMMLU): 从 88.8% 提升至 89.5%
高中数学竞赛 (AIME 2025): 从 75.5% 提升至 78.0%

值得注意的是，在“智能代理工具使用” (Agentic tool use) 的一项特定基准测试（航空公司类别）中，其得分略有下降。

定价与可用性

Claude Opus 4.1 的定价与 Opus 4 保持一致。该模型已向付费的 Claude 用户、Claude Code 用户以及通过 API 开放。此外，用户还可以通过亚马逊的 Amazon Bedrock 和谷歌云的 Vertex AI 等云平台接入使用。

安全性与市场反响

Anthropic 表示，尽管 Opus 4.1 是一个增量升级，公司仍对其进行了安全评估，以确保其风险在可接受范围内。在无害性方面，该模型拒绝违反政策请求的比例有所上升。

从市场反响来看，部分用户认为这是一次有效的迭代，特别是在处理复杂的编程任务时。然而，也有评论指出，对于日常或不太复杂的任务，其提升感知可能不明显，且高昂的成本仍然是用户考量的主要因素之一。Anthropic 预告，未来几周内将发布更大幅度的模型改进。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送