Qwen3.7-Max-Preview

Name: Qwen3.7-Max-Preview
Price: 2.5 USD
Availability: InStock
Author: 阿里巴巴

推理大模型Qwen3.7

Qwen3.7-Max-Preview

发布时间: 2026-05-20更新于: 2026-05-21 21:58:53.6063,795

在线体验GitHubHugging FaceCompare

模型参数

1万亿

上下文长度

中文支持

支持

推理能力

Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型，定位为 Agent 工作流基座。模型在代码 Agent、通用 Agent 及长程自主执行方向进行了系统强化，在 GPQA Diamond（92.4）、HLE（41.4）、SWE-Pro（60.6）、MCP-Atlas（76.4）等主要基准上达到同批对比模型最高分，推理和 Agent 能力整体持平或小幅超越 Claude Opus 4.6 Max。官方实测显示模型可在未知硬件架构上持续自主运行 35 小时、执行逾千次工具调用，实现 10 倍算子加速。当前仅通过阿里云百炼平台 API 提供服务，兼容 OpenAI 与 Anthropic 两种调用协议。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3.7-Max-Preview

模型基本信息

推理过程

支持

思考模式

思考模式 (默认)常规模式

上下文长度

1M tokens

最大输出长度

64K tokens

模型类型

推理大模型

输入/输出模态

暂无数据

发布时间

2026-05-20

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

1万亿 / 不涉及

知识截止

暂无数据

Qwen3.7-Max-Preview

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://qwen.ai

Qwen3.7-Max-Preview

官方介绍与博客

官方论文

Qwen3.7: The Agent Frontier

DataLearnerAI博客

暂无介绍博客

Qwen3.7-Max-Preview

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$2.50/ 1M	$7.50/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$3.13/ 1M	$0.250/ 1M

Qwen3.7-Max-Preview

评测结果

Qwen3.7-Max-Preview 当前已收录的代表性评测结果包括 MMLU Pro（4 / 126，得分 89.60）、LiveCodeBench（4 / 120，得分 91.60）、GPQA Diamond（11 / 179，得分 92.40）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

最高

92.40

11 / 179

MMLU Pro

最高

89.60

4 / 126

HLE

思考模式工具

53.50

12 / 161

HLE

最高

41.40

50 / 161

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

最高

91.60

4 / 120

SWE-bench Verified

思考模式工具

80.40

12 / 108

SWE-bench Multilingual

思考模式工具

78.30

3 / 20

SWE-Bench Pro - Public

思考模式工具

60.60

6 / 44

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

最高

79.10

2 / 29

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

69.70

5 / 46

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

IMO-AnswerBench

最高

2 / 20

查看评测深度分析与其他模型对比

和其他模型对比

想自定义其他组合？打开对比工具

Qwen3.7-Max-Preview

发布机构

阿里巴巴

查看发布机构详情

Qwen3.7-Max-Preview

模型解读

Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型，定位为 Agent 时代的通用基座。与前代 Qwen3.6-Plus 相比，该模型在代码 Agent、通用 Agent、长程自主执行三个方向上进行了系统性强化，并在跨框架泛化能力上作出明确承诺——模型在 Claude Code、OpenClaw、Qwen Code 等主流 Agent 框架下均可稳定部署，无需针对特定框架调优。

模型通过阿里云百炼平台以 API 形式提供，同时兼容 OpenAI 和 Anthropic 两种调用协议，支持 preserve_thinking 参数在多轮 Agent 场景中保留推理链上下文。

基准数据：主要方向上的横向位置

官方发布了与 Claude Opus 4.6 Max、Kimi K2.6 Thinking、GLM-5.1 Thinking、DeepSeek V4 Pro Max、Qwen3.6-Plus 的横向对比数据，覆盖代码 Agent、通用 Agent、推理、通用能力和多语言五大类。

在代码 Agent 方向，Qwen3.7-Max 在 SWE-Pro（60.6）、SWE-Multilingual（78.3）、SciCode（53.5）和 Terminal Bench 2.0-Terminus（69.7）上位居第一，SWE-Verified 得分 80.4 与 Opus 4.6 Max（80.8）和 DS-V4-Pro Max（80.6）基本持平。

通用 Agent 方向表现更为突出。MCP-Atlas 得分 76.4 超过 Opus 4.6 Max 的 75.8，MCP-Mark 得分 60.8 超过 GLM-5.1 的 57.5，Skillsbench 得分 59.2 超过 K2.6 的 56.2。SpreadSheetBench-v1 得分 87.0，仅次于 Opus 4.6 Max 的 89.3。Qwenclaw（64.3）和 ClawEval（65.2）两项与 Opus 4.6 Max 仍有约 1 个百分点差距。

推理方向，GPQA Diamond 得分 92.4 超过 Opus 4.6 Max 的 91.3 成为榜首，HLE 得分 41.4 略高于 Opus 4.6 Max 的 40.0，HMMT 2026 Feb 得分 97.1 同样排名第一。IMOAnswerBench 得分 90.0 超过 DS-V4-Pro Max 的 89.8，Apex 得分 44.5 亦高于 DS-V4-Pro Max 的 38.3。

多语言方向，WMT24++ 得分 85.8、MAXIFE 得分 89.2 均居同批对比模型第一。长文本方面，MRCR-v2 128K 得分 90.4，显著高于 Qwen3.6-Plus 的 85.9 和 Opus 4.6 Max 的 84.0。

技术方向：环境扩展与跨框架泛化

Qwen3.7-Max 的 Agent 能力提升主要依托两项训练侧投入。

其一是环境扩展（Environment Scaling）。沿袭 Qwen3.5 引入的思路，团队进一步扩大了 Agent 训练环境的数量与多样性，训练环境与评测环境保持严格的领域隔离。官方数据显示，随着训练环境规模的增加，模型在多个域外 Agent 基准上的排名持续提升，且任意子集基准上的增益对整体均分的预测误差较低，表明这一提升来自能力泛化而非基准记忆。

其二是跨框架泛化训练（Cross-Harness RL）。训练框架将任务（Task）、执行框架（Harness）和验证器（Verifier）解耦为三个独立维度，支持自由组合采样。相同任务在不同框架版本和验证方式下反复出现，使模型无法依赖对特定框架的适配捷径，而是被迫学习任务本身的通用解决策略。

长程自主执行能力的实测案例

官方提供了一个具体的长程自主执行案例：在配备天垓 ZW-M890 PPU 的 ECS 实例上，模型在从未见过该硬件架构的前提下，对 SGLang 的 Extend Attention 算子进行自主优化，持续运行约 35 小时，共执行 1158 次工具调用，完成 432 次核函数评估，最终实现相对 Triton 参考实现 10.0 倍的几何均值加速比。

该案例同批测试的对比结果为：GLM-5.1 达到 7.3 倍，Kimi K2.6 达到 5.0 倍，DeepSeek V4 Pro 达到 3.3 倍，Qwen3.6-Plus 达到 1.1 倍。非 Qwen3.7-Max 的模型均早于任务上限自动停止，原因是连续五轮无工具调用后框架判定模型已放弃继续优化。

可用性

Qwen3.7-Max 当前通过阿里云百炼平台 API 提供服务，支持北京、新加坡、美国弗吉尼亚三个地区节点。API 兼容 OpenAI 和 Anthropic 两种调用协议，支持通过 Claude Code 直接调用。模型目前不提供开源权重。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送