QW

Qwen3.7-Max-Preview

推理大模型Qwen3.7

Qwen3.7-Max-Preview

发布时间: 2026-05-20更新于: 2026-05-21 21:58:53.6063,795
在线体验GitHubHugging FaceCompare
模型参数
1万亿
上下文长度
1M
中文支持
支持
推理能力

Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型,定位为 Agent 工作流基座。模型在代码 Agent、通用 Agent 及长程自主执行方向进行了系统强化,在 GPQA Diamond(92.4)、HLE(41.4)、SWE-Pro(60.6)、MCP-Atlas(76.4)等主要基准上达到同批对比模型最高分,推理和 Agent 能力整体持平或小幅超越 Claude Opus 4.6 Max。官方实测显示模型可在未知硬件架构上持续自主运行 35 小时、执行逾千次工具调用,实现 10 倍算子加速。当前仅通过阿里云百炼平台 API 提供服务,兼容 OpenAI 与 Anthropic 两种调用协议。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Qwen3.7-Max-Preview

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)常规模式
上下文长度
1M tokens
最大输出长度
64K tokens
模型类型
推理大模型
输入/输出模态
暂无数据
发布时间
2026-05-20
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
1万亿 / 不涉及
知识截止
暂无数据
Qwen3.7-Max-Preview

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
Qwen3.7-Max-Preview

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
Qwen3.7-Max-Preview

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准模式
类型适用条件输入输出
文本-$2.50/ 1M$7.50/ 1M
缓存定价Prompt缓存
类型有效期写入读取
文本5m$3.13/ 1M$0.250/ 1M
Qwen3.7-Max-Preview

评测结果

Qwen3.7-Max-Preview 当前已收录的代表性评测结果包括 MMLU Pro(4 / 126,得分 89.60)、LiveCodeBench(4 / 120,得分 91.60)、GPQA Diamond(11 / 179,得分 92.40)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
工具使用

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
92.40
11 / 179
MMLU Pro
最高
89.60
4 / 126
HLE
思考模式工具
53.50
12 / 161
HLE
最高
41.40
50 / 161

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
91.60
4 / 120
SWE-bench Verified
思考模式工具
80.40
12 / 108
SWE-bench Multilingual
思考模式工具
78.30
3 / 20
SWE-Bench Pro - Public
思考模式工具
60.60
6 / 44

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
最高
79.10
2 / 29

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考模式工具
69.70
5 / 46

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
90
2 / 20

和其他模型对比

Qwen3.7-Max-Preview

发布机构

Qwen3.7-Max-Preview

模型解读

Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型,定位为 Agent 时代的通用基座。与前代 Qwen3.6-Plus 相比,该模型在代码 Agent、通用 Agent、长程自主执行三个方向上进行了系统性强化,并在跨框架泛化能力上作出明确承诺——模型在 Claude Code、OpenClaw、Qwen Code 等主流 Agent 框架下均可稳定部署,无需针对特定框架调优。

模型通过阿里云百炼平台以 API 形式提供,同时兼容 OpenAI 和 Anthropic 两种调用协议,支持 preserve_thinking 参数在多轮 Agent 场景中保留推理链上下文。


基准数据:主要方向上的横向位置

官方发布了与 Claude Opus 4.6 Max、Kimi K2.6 Thinking、GLM-5.1 Thinking、DeepSeek V4 Pro Max、Qwen3.6-Plus 的横向对比数据,覆盖代码 Agent、通用 Agent、推理、通用能力和多语言五大类。

在代码 Agent 方向,Qwen3.7-Max 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和 Terminal Bench 2.0-Terminus(69.7)上位居第一,SWE-Verified 得分 80.4 与 Opus 4.6 Max(80.8)和 DS-V4-Pro Max(80.6)基本持平。

通用 Agent 方向表现更为突出。MCP-Atlas 得分 76.4 超过 Opus 4.6 Max 的 75.8,MCP-Mark 得分 60.8 超过 GLM-5.1 的 57.5,Skillsbench 得分 59.2 超过 K2.6 的 56.2。SpreadSheetBench-v1 得分 87.0,仅次于 Opus 4.6 Max 的 89.3。Qwenclaw(64.3)和 ClawEval(65.2)两项与 Opus 4.6 Max 仍有约 1 个百分点差距。

推理方向,GPQA Diamond 得分 92.4 超过 Opus 4.6 Max 的 91.3 成为榜首,HLE 得分 41.4 略高于 Opus 4.6 Max 的 40.0,HMMT 2026 Feb 得分 97.1 同样排名第一。IMOAnswerBench 得分 90.0 超过 DS-V4-Pro Max 的 89.8,Apex 得分 44.5 亦高于 DS-V4-Pro Max 的 38.3。

多语言方向,WMT24++ 得分 85.8、MAXIFE 得分 89.2 均居同批对比模型第一。长文本方面,MRCR-v2 128K 得分 90.4,显著高于 Qwen3.6-Plus 的 85.9 和 Opus 4.6 Max 的 84.0。


技术方向:环境扩展与跨框架泛化

Qwen3.7-Max 的 Agent 能力提升主要依托两项训练侧投入。

其一是环境扩展(Environment Scaling)。沿袭 Qwen3.5 引入的思路,团队进一步扩大了 Agent 训练环境的数量与多样性,训练环境与评测环境保持严格的领域隔离。官方数据显示,随着训练环境规模的增加,模型在多个域外 Agent 基准上的排名持续提升,且任意子集基准上的增益对整体均分的预测误差较低,表明这一提升来自能力泛化而非基准记忆。

其二是跨框架泛化训练(Cross-Harness RL)。训练框架将任务(Task)、执行框架(Harness)和验证器(Verifier)解耦为三个独立维度,支持自由组合采样。相同任务在不同框架版本和验证方式下反复出现,使模型无法依赖对特定框架的适配捷径,而是被迫学习任务本身的通用解决策略。


长程自主执行能力的实测案例

官方提供了一个具体的长程自主执行案例:在配备天垓 ZW-M890 PPU 的 ECS 实例上,模型在从未见过该硬件架构的前提下,对 SGLang 的 Extend Attention 算子进行自主优化,持续运行约 35 小时,共执行 1158 次工具调用,完成 432 次核函数评估,最终实现相对 Triton 参考实现 10.0 倍的几何均值加速比。

该案例同批测试的对比结果为:GLM-5.1 达到 7.3 倍,Kimi K2.6 达到 5.0 倍,DeepSeek V4 Pro 达到 3.3 倍,Qwen3.6-Plus 达到 1.1 倍。非 Qwen3.7-Max 的模型均早于任务上限自动停止,原因是连续五轮无工具调用后框架判定模型已放弃继续优化。


可用性

Qwen3.7-Max 当前通过阿里云百炼平台 API 提供服务,支持北京、新加坡、美国弗吉尼亚三个地区节点。API 兼容 OpenAI 和 Anthropic 两种调用协议,支持通过 Claude Code 直接调用。模型目前不提供开源权重。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码