Qwen3.6-27BvsGPT-5.4 mini

在 6 个共同 benchmark 中，GPT-5.4 mini 整体领先：Qwen3.6-27B 领先 1 项，GPT-5.4 mini 领先 5 项，持平 0 项，平均分差 +1.07。

阿里巴巴 · 2026-04-22 · 推理大模型

OpenAI · 2026-03-17 · 推理大模型

Qwen3.6-27B1 项(17%)(83%)5 项GPT-5.4 mini

评测分数

按能力类目分组，每组内按分差大小排列；共 6 项。

GPT-5.4 mini 领先 2/3

评测项	Qwen3.6-27B	GPT-5.4 mini	分差
LiveBench	65.5652 / 115Normal (No Tools)	36.95112 / 115Normal (No Tools)	+28.61
HLE	24107 / 172Thinking (No Tools)	41.5057 / 172极高强度思考（工具）	-17.50
GPQA Diamond	87.8036 / 187Thinking (No Tools)	8835 / 187极高强度思考（无工具）	-0.20

GPT-5.4 mini 领先 1/1

评测项	Qwen3.6-27B	GPT-5.4 mini	分差
Terminal Bench 2.0	59.3020 / 47Thinking (With Tools)	6019 / 47极高强度思考（工具）	-0.70

GPT-5.4 mini 领先 1/1

评测项	Qwen3.6-27B	GPT-5.4 mini	分差
Claw Bench	72.4027 / 29Thinking (With Tools)	75.3025 / 29Thinking (With Tools)	-2.90

GPT-5.4 mini 领先 1/1

评测项	Qwen3.6-27B	GPT-5.4 mini	分差
SWE-Bench Pro - Public	53.5034 / 54Thinking (With Tools)	54.4029 / 54极高强度思考（工具）	-0.90

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

GPT-5.4 mini在以下类目领先:General Knowledge (2/3)、AI Agent - Tool Usage (1/1)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)

6 个共同 benchmark 上，Qwen3.6-27B 平均高出 1.07 分。

单项差距最大的 benchmark：LiveBench — Qwen3.6-27B 65.56，GPT-5.4 mini 36.95（分差 +28.61）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。