DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogQwen3-Max-Thinking
QW

Qwen3-Max-Thinking

推理大模型

Qwen3-Max-Thinking

Release date: 2026-01-26更新于: 2026-03-08 21:06:20知识截止: 2024-101,497
Live demoGitHubHugging FaceCompare
Parameters
10000.0亿
Context length
1000K
Chinese support
Supported
Reasoning ability

Qwen3-Max-Thinking is an AI model published by 阿里巴巴, released on 2026-01-26, for 推理大模型, with 10000.0B parameters, and 1000K tokens context length, under the 不开源 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Qwen3-Max-Thinking

Model basics

Reasoning traces
Supported
Thinking modes
Thinking Level · Extended (Default)
Context length
1000K tokens
Max output length
32768 tokens
Model type
推理大模型
Release date
2026-01-26
Model file size
No data
MoE architecture
Yes
Total params / Active params
10000.0B / No data
Knowledge cutoff
2024-10
Qwen3-Max-Thinking

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://chat.qwen.ai/
Qwen3-Max-Thinking

Official resources

Paper
Qwen3-Max-Thinking: Pushing the Limits of Reasoning via Test-Time Scaling
DataLearnerAI blog
No blog post yet
Qwen3-Max-Thinking

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$1.2$6
Extended context pricingExtended
ModalityInputOutput
Text$2.4$12
Qwen3-Max-Thinking

Benchmark Results

Qwen3-Max-Thinking currently shows benchmark results led by LiveCodeBench (7 / 109, score 85.90), HLE (15 / 131, score 49.80), MMLU Pro (14 / 117, score 85.70). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

Thinking
All modesThinking
Thinking mode details (1)
All thinking modesDefault (Extended)
Tool usage
All modesWith toolsNo tools

综合评估

5 evaluations
Benchmark / mode
Score
Rank/total
C-Eval
Thinking Mode
93.70
1 / 6
GPQA Diamond
Thinking Mode
87.40
26 / 166
MMLU Pro
Thinking Mode
85.70
14 / 117
HLE
Thinking Mode
30.20
54 / 131
HLE
Thinking ModeTools
49.80
15 / 131

编程与软件工程

2 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBench
Thinking Mode
85.90
7 / 109
SWE-bench Verified
Thinking Mode
75.30
23 / 96

Agent能力评测

1 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench
Thinking ModeTools
82.10
11 / 40

指令跟随

1 evaluations
Benchmark / mode
Score
Rank/total
IF Bench
Thinking ModeTools
70.90
9 / 27

数学推理

1 evaluations
Benchmark / mode
Score
Rank/total
IMO-AnswerBench
Thinking Mode
83.90
3 / 9

OpenClaw智能体能力综合测评

1 evaluations
Benchmark / mode
Score
Rank/total
Pinch Bench
Thinking ModeTools
80.30
23 / 37
View benchmark analysisCompare with other models
Qwen3-Max-Thinking

Publisher

阿里巴巴
阿里巴巴
View publisher details
Qwen3-Max-Thinking

Model Overview

2025年9月,阿里层发布Qwen3-Max-Thinking的预览版本,但是直到4个多月后的2026年1月26日,才发布了Qwen3-Max-Thinking的正式版本,正式版本相比较预览版本能力显著提升。但是中间经过了这么长时间,可能是做了继续的后训练。



1. Qwen3-Max-Thinking 简介与核心定位

Qwen3-Max-Thinking 是阿里云于 2026 年 1 月正式发布的通义千问系列最强旗舰模型,也是阿里首个参数规模突破万亿(1T+)的生产级模型。作为 Qwen3 系列的巅峰之作,该模型专为解决极高复杂度的科学推理、数学计算及深度编程任务而设计。其核心突破在于引入了“测试时扩展(Test-time Scaling)”机制与自适应工具调用能力,标志着通义千问从“通用对话”向“深度推理与自主智能体”的代际跨越。在官方定位中,它不仅是常规的对话模型,更是具备“慢思考”能力的推理专家,旨在对标并超越 GPT-5.2 与 Gemini 3 Pro 等国际顶尖模型。

2. 架构与技术规格

  • 模型参数:总参数量超过 10,000 亿(1 Trillion+),采用极其高效的 MoE(混合专家)架构,在保持超大规模知识容量的同时,通过稀疏激活显著降低了推理成本。
  • 上下文窗口:原生支持 1M (1,000,000) Tokens 上下文,结合阿里独创的 ChunkFlow 策略,能够处理超长文档分析与代码库级的全量阅读。
  • 架构特点:核心创新在于引入了强化学习后训练(Post-training RL)与测试时扩展机制。模型不再只是简单预测下一个 Token,而是能够通过“思考模式”在内部进行多轮自我迭代、错误修正与路径探索,从而在输出最终答案前完成深度的逻辑验证。

3. 核心能力与支持模态

  • 模态支持:当前版本主要聚焦于纯文本与代码的高级推理(Text-in, Text-out),暂未集成视觉等多模态原生输入(需配合 Qwen-VL 使用)。
  • 能力详述:
     - 深度思考(Thinking Mode):在处理奥数题、复杂算法或科研难题时,模型会显式地展示思维链(Chain of Thought),其推理深度与准确率随思考时间线性增长。
     - 自适应工具调用:具备原生 Agent 能力,能根据问题需求自主决定是否调用代码解释器、搜索引擎或知识库,并能自我纠正工具使用的返回错误。

4. 性能与基准评测

根据 2026 年 1 月发布的官方技术报告,Qwen3-Max-Thinking 在多个权威基准测试中刷新了全球纪录:

  • HLE (Humanity's Last Exam):在这一被称为“人类最后测试”的高难评测中,得分达到 58.3,显著优于 GPT-5.2-Thinking (45.5) 和 Gemini 3 Pro (45.8)。
  • 数学与代码:在 AIME 25(数学竞赛)与 LiveCodeBench(实时编程)中均取得 SOTA 成绩,特别是在启用“深度思考”模式后,解决复杂长尾问题的成功率提升了 40% 以上。

5. 应用场景与限制

  • 推荐用例:科学研究辅助(如论文逻辑验证)、复杂金融建模、全栈软件开发、法律文书深度分析等需要高精度与长逻辑链的场景。
  • 已知局限:在开启“思考模式”时,首字延迟(TTFT)会显著增加,且推理成本较常规模式更高;不建议用于简单的闲聊或对实时性要求极高的客服场景。

6. 访问方式与许可

目前 Qwen3-Max-Thinking 已通过阿里云百炼平台(Model Studio)提供 API 服务,模型 ID 为 qwen3-max-2026-01-23。作为商业旗舰模型,该版本不开源,仅提供 API 访问与私有化部署选项。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码