Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型,定位为 Agent 工作流基座。模型在代码 Agent、通用 Agent 及长程自主执行方向进行了系统强化,在 GPQA Diamond(92.4)、HLE(41.4)、SWE-Pro(60.6)、MCP-Atlas(76.4)等主要基准上达到同批对比模型最高分,推理和 Agent 能力整体持平或小幅超越 Claude Opus 4.6 Max。官方实测显示模型可在未知硬件架构上持续自主运行 35 小时、执行逾千次工具调用,实现 10 倍算子加速。当前仅通过阿里云百炼平台 API 提供服务,兼容 OpenAI 与 Anthropic 两种调用协议。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型基本信息
开源和体验地址
官方介绍与博客
API接口信息
评测结果
Qwen3.7-Max-Preview 当前已收录的代表性评测结果包括 MMLU Pro(4 / 126,得分 89.60)、LiveCodeBench(4 / 120,得分 91.60)、GPQA Diamond(11 / 179,得分 92.40)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
综合评估
共 4 项评测编程与软件工程
共 4 项评测和其他模型对比
发布机构
模型解读
Qwen3.7-Max 是阿里云通义团队于2026年5月发布的闭源旗舰模型,定位为 Agent 时代的通用基座。与前代 Qwen3.6-Plus 相比,该模型在代码 Agent、通用 Agent、长程自主执行三个方向上进行了系统性强化,并在跨框架泛化能力上作出明确承诺——模型在 Claude Code、OpenClaw、Qwen Code 等主流 Agent 框架下均可稳定部署,无需针对特定框架调优。
模型通过阿里云百炼平台以 API 形式提供,同时兼容 OpenAI 和 Anthropic 两种调用协议,支持 preserve_thinking 参数在多轮 Agent 场景中保留推理链上下文。
基准数据:主要方向上的横向位置
官方发布了与 Claude Opus 4.6 Max、Kimi K2.6 Thinking、GLM-5.1 Thinking、DeepSeek V4 Pro Max、Qwen3.6-Plus 的横向对比数据,覆盖代码 Agent、通用 Agent、推理、通用能力和多语言五大类。
在代码 Agent 方向,Qwen3.7-Max 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和 Terminal Bench 2.0-Terminus(69.7)上位居第一,SWE-Verified 得分 80.4 与 Opus 4.6 Max(80.8)和 DS-V4-Pro Max(80.6)基本持平。
通用 Agent 方向表现更为突出。MCP-Atlas 得分 76.4 超过 Opus 4.6 Max 的 75.8,MCP-Mark 得分 60.8 超过 GLM-5.1 的 57.5,Skillsbench 得分 59.2 超过 K2.6 的 56.2。SpreadSheetBench-v1 得分 87.0,仅次于 Opus 4.6 Max 的 89.3。Qwenclaw(64.3)和 ClawEval(65.2)两项与 Opus 4.6 Max 仍有约 1 个百分点差距。
推理方向,GPQA Diamond 得分 92.4 超过 Opus 4.6 Max 的 91.3 成为榜首,HLE 得分 41.4 略高于 Opus 4.6 Max 的 40.0,HMMT 2026 Feb 得分 97.1 同样排名第一。IMOAnswerBench 得分 90.0 超过 DS-V4-Pro Max 的 89.8,Apex 得分 44.5 亦高于 DS-V4-Pro Max 的 38.3。
多语言方向,WMT24++ 得分 85.8、MAXIFE 得分 89.2 均居同批对比模型第一。长文本方面,MRCR-v2 128K 得分 90.4,显著高于 Qwen3.6-Plus 的 85.9 和 Opus 4.6 Max 的 84.0。
技术方向:环境扩展与跨框架泛化
Qwen3.7-Max 的 Agent 能力提升主要依托两项训练侧投入。
其一是环境扩展(Environment Scaling)。沿袭 Qwen3.5 引入的思路,团队进一步扩大了 Agent 训练环境的数量与多样性,训练环境与评测环境保持严格的领域隔离。官方数据显示,随着训练环境规模的增加,模型在多个域外 Agent 基准上的排名持续提升,且任意子集基准上的增益对整体均分的预测误差较低,表明这一提升来自能力泛化而非基准记忆。
其二是跨框架泛化训练(Cross-Harness RL)。训练框架将任务(Task)、执行框架(Harness)和验证器(Verifier)解耦为三个独立维度,支持自由组合采样。相同任务在不同框架版本和验证方式下反复出现,使模型无法依赖对特定框架的适配捷径,而是被迫学习任务本身的通用解决策略。
长程自主执行能力的实测案例
官方提供了一个具体的长程自主执行案例:在配备天垓 ZW-M890 PPU 的 ECS 实例上,模型在从未见过该硬件架构的前提下,对 SGLang 的 Extend Attention 算子进行自主优化,持续运行约 35 小时,共执行 1158 次工具调用,完成 432 次核函数评估,最终实现相对 Triton 参考实现 10.0 倍的几何均值加速比。
该案例同批测试的对比结果为:GLM-5.1 达到 7.3 倍,Kimi K2.6 达到 5.0 倍,DeepSeek V4 Pro 达到 3.3 倍,Qwen3.6-Plus 达到 1.1 倍。非 Qwen3.7-Max 的模型均早于任务上限自动停止,原因是连续五轮无工具调用后框架判定模型已放弃继续优化。
可用性
Qwen3.7-Max 当前通过阿里云百炼平台 API 提供服务,支持北京、新加坡、美国弗吉尼亚三个地区节点。API 兼容 OpenAI 和 Anthropic 两种调用协议,支持通过 Claude Code 直接调用。模型目前不提供开源权重。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
