Qwen3.7-Max-Preview 评测详情

Qwen3.7-Max-Preview 当前已收录的代表性评测结果包括 MMLU Pro（4 / 126，得分 89.60）、LiveCodeBench（4 / 120，得分 91.60）、GPQA Diamond（11 / 179，得分 92.40）。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

Qwen3.7-Max-Preview

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考水平·Max

92.40

11 / 179

MMLU Pro

思考水平·Max

89.60

4 / 126

HLE

思考模式工具

53.50

12 / 161

HLE

思考水平·Max

41.40

50 / 161

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考水平·Max

91.60

4 / 120

SWE-bench Verified

思考模式工具

80.40

12 / 108

SWE-bench Multilingual

思考模式工具

78.30

3 / 20

SWE-Bench Pro - Public

思考模式工具

60.60

6 / 44

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考水平·Max

79.10

2 / 29

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

69.70

5 / 46

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

IMO-AnswerBench

思考水平·Max

2 / 20

与其他模型对比

竞品对比

Qwen3.7-Max-Preview 与同类主流模型的评测得分对比

Qwen3.7-Max-PreviewKimi K2.6 DeepSeek-V4-Pro GLM 5.1

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

9 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Qwen3.7-Max-Preview当前	Kimi K2.6	DeepSeek-V4-Pro	GLM 5.1
GPQA Diamond 综合评估	92.40思考水平·高	--	90.10思考水平·高	86.20开启思考
HLE 综合评估	53.50开启思考｜工具	54.00开启思考｜工具	48.20思考水平·极高｜工具	52.30开启思考｜工具
MMLU Pro 综合评估	89.60思考水平·高	--	87.50思考水平·高	--
LiveCodeBench 编程与软件工程	91.60思考水平·高	--	93.50思考水平·高	--
SWE-bench Multilingual 编程与软件工程	78.30开启思考｜工具	76.70开启思考｜工具	76.20思考水平·极高｜工具	--
SWE-Bench Pro - Public 编程与软件工程	60.60开启思考｜工具	58.60开启思考｜工具	55.40思考水平·极高｜工具	58.40开启思考｜工具
SWE-bench Verified 编程与软件工程	80.40开启思考｜工具	80.20开启思考｜工具	80.60思考水平·极高｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	69.70开启思考｜工具	66.70开启思考｜工具	67.90思考水平·极高｜工具	63.50开启思考｜工具
IMO-AnswerBench 数学推理	90.00思考水平·高	--	89.80思考水平·高	83.80开启思考

Qwen3.7-Max-Preview 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
Qwen3.7-Max-Preview	阿里巴巴	$2.5 / 1M tokens	$7.5 / 1M tokens	—
Kimi K2.6	Facebook AI研究实验室	$0.95 / 1M tokens	$4 / 1M tokens	—
DeepSeek-V4-Pro	DeepSeek-AI	$0.435 / 1M tokens	$0.87 / 1M tokens	—
GLM 5.1	智谱AI	$1.4 / 1M tokens	$4.4 / 1M tokens	—

历代版本对比

Qwen3.7-Max-Preview 系列各版本的评测成绩纵向对比

Qwen3.7-Max-PreviewQwen3.6-Max-Preview Qwen3-Max-Thinking

评测类别:

10 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Qwen3.7-Max-Preview当前	Qwen3.6-Max-Preview	Qwen3-Max-Thinking
GPQA Diamond 综合评估	92.40思考水平·高	90.40思考水平·高	87.40开启思考
HLE 综合评估	53.50开启思考｜工具	50.20开启思考｜工具	49.80开启思考｜工具
MMLU Pro 综合评估	89.60思考水平·高	88.50思考水平·高	85.70开启思考
LiveCodeBench 编程与软件工程	91.60思考水平·高	87.10思考水平·高	85.90开启思考
SWE-bench Multilingual 编程与软件工程	78.30开启思考｜工具	73.80开启思考｜工具	--
SWE-Bench Pro - Public 编程与软件工程	60.60开启思考｜工具	56.60开启思考｜工具	--
SWE-bench Verified 编程与软件工程	80.40开启思考｜工具	78.80开启思考｜工具	75.30开启思考
IF Bench 指令跟随	79.10思考水平·高	74.20思考水平·高	70.90开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	69.70开启思考｜工具	65.40深度思考模式｜工具	--
IMO-AnswerBench 数学推理	90.00思考水平·高	83.80思考水平·高	83.90开启思考

单评测历史趋势图

当前查看：GPQA Diamond · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Qwen3.7-Max-Preview 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Qwen3.6-Max-Preview: 标准价适用于 <= 128

模型	供应商	标准输入	标准输出	标准价适用于
Qwen3.7-Max-Preview	阿里巴巴	$2.5 / 1M tokens	$7.5 / 1M tokens	—
Qwen3.6-Max-Preview	阿里巴巴	$1.3 / 1M tokens	$7.8 / 1M tokens	<= 128

数据来源

qwen.aiqwen.ai