评测结果
Qwen3.7-Max-Preview
评测结果
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 4 项评测评测名称 / 模式
得分
排名/总数
竞品对比
Qwen3.7-Max-Preview 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Qwen3.7-Max-Preview当前 | Kimi K2.6 | DeepSeek-V4-Pro | GLM 5.1 |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 92.40思考水平·高 | 90.50开启思考 | 90.10思考水平·高 | 86.20开启思考 |
HLE 综合评估 | 53.50开启思考 | 工具 | 54.00开启思考 | 工具 | 48.20思考水平·极高 | 工具 | 52.30开启思考 | 工具 |
MMLU Pro 综合评估 | 89.60思考水平·高 | -- | 87.50思考水平·高 | -- |
LiveCodeBench 编程与软件工程 | 91.60思考水平·高 | 89.60开启思考 | 93.50思考水平·高 | -- |
SWE-bench Multilingual 编程与软件工程 | 78.30开启思考 | 工具 | 76.70开启思考 | 工具 | 76.20思考水平·极高 | 工具 | -- |
SWE-Bench Pro - Public 编程与软件工程 | 60.60开启思考 | 工具 | 58.60开启思考 | 工具 | 55.40思考水平·极高 | 工具 | 58.40开启思考 | 工具 |
SWE-bench Verified 编程与软件工程 | 80.40开启思考 | 工具 | 80.20开启思考 | 工具 | 80.60思考水平·极高 | 工具 | -- |
Terminal Bench 2.0 AI Agent - 工具使用 | 69.70开启思考 | 工具 | 66.70开启思考 | 工具 | 67.90思考水平·极高 | 工具 | 63.50开启思考 | 工具 |
IMO-AnswerBench 数学推理 | 90.00思考水平·高 | 86.00开启思考 | 89.80思考水平·高 | 83.80开启思考 |
Qwen3.7-Max-Preview 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Qwen3.7-Max-Preview | 阿里巴巴 | $2.5 / 1M tokens | $7.5 / 1M tokens | — |
Kimi K2.6 | Facebook AI研究实验室 | $0.95 / 1M tokens | $4 / 1M tokens | — |
DeepSeek-V4-Pro | DeepSeek-AI | $1.74 / 1M tokens | $3.48 / 1M tokens | — |
GLM 5.1 | 智谱AI | $1.4 / 1M tokens | $4.4 / 1M tokens | — |
历代版本对比
Qwen3.7-Max-Preview 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
10 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Qwen3.7-Max-Preview当前 | Qwen3.6-Max-Preview | Qwen3-Max-Thinking |
|---|---|---|---|
GPQA Diamond 综合评估 | 92.40思考水平·高 | 90.40思考水平·高 | 87.40开启思考 |
HLE 综合评估 | 53.50开启思考 | 工具 | 50.20开启思考 | 工具 | 49.80开启思考 | 工具 |
MMLU Pro 综合评估 | 89.60思考水平·高 | 88.50思考水平·高 | 85.70开启思考 |
LiveCodeBench 编程与软件工程 | 91.60思考水平·高 | 87.10思考水平·高 | 85.90开启思考 |
SWE-bench Multilingual 编程与软件工程 | 78.30开启思考 | 工具 | 73.80开启思考 | 工具 | -- |
SWE-Bench Pro - Public 编程与软件工程 | 60.60开启思考 | 工具 | 56.60开启思考 | 工具 | -- |
SWE-bench Verified 编程与软件工程 | 80.40开启思考 | 工具 | 78.80开启思考 | 工具 | 75.30开启思考 |
IF Bench 指令跟随 | 79.10思考水平·高 | 74.20思考水平·高 | 70.90开启思考 | 工具 |
Terminal Bench 2.0 AI Agent - 工具使用 | 69.70开启思考 | 工具 | 65.40深度思考模式 | 工具 | -- |
IMO-AnswerBench 数学推理 | 90.00思考水平·高 | 83.80思考水平·高 | 83.90开启思考 |
单评测历史趋势图
当前查看:GPQA Diamond · 综合评估
选择评测
Qwen3.7-Max-Preview 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
Qwen3.6-Max-Preview: 标准价适用于 <= 128
Qwen3-Max-Thinking: 标准价适用于 <= 32K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Qwen3.7-Max-Preview | 阿里巴巴 | $2.5 / 1M tokens | $7.5 / 1M tokens | — |
Qwen3.6-Max-Preview | 阿里巴巴 | $1.3 / 1M tokens | $7.8 / 1M tokens | <= 128 |
Qwen3-Max-Thinking | — | 1.2 美元/100万 tokens | 6 美元/100万 tokens | <= 32K |