Mistral-Small-3.2

Name: Mistral-Small-3.2-24B-Instruct-2506
Availability: InStock
Author: MistralAI

聊天大模型

Mistral-Small-3.2-24B-Instruct-2506

Release date: 2025-06-20更新于: 2025-06-27 10:47:311,137

Live demoGitHubHugging Face Compare

Parameters

240.0亿

Context length

128K

Chinese support

Supported

Reasoning ability

Mistral-Small-3.2-24B-Instruct-2506 is an AI model published by MistralAI, released on 2025-06-20, for 聊天大模型, with 240.0B parameters, and 128K tokens context length, requiring about 47.04 GB storage, under the Apache 2.0 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Mistral-Small-3.2

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

128K tokens

Max output length

96000 tokens

Model type

Mistral-Small-3.2

Open source & experience

Code license

Apache 2.0

Weights license

Apache 2.0- 免费商用授权

GitHub repo

GitHub link unavailable

Hugging Face

https://huggingface.co/mistralai/Mistral-Small-3.2-24B-Instruct-2506

Live demo

Mistral-Small-3.2

Official resources

Paper

No paper available

DataLearnerAI blog

No blog post yet

Mistral-Small-3.2

API details

API speed

3/5

Mistral-Small-3.2

Benchmark Results

Mistral-Small-3.2 currently shows benchmark results led by MATH (20 / 42, score 69.42), GPQA (8 / 13, score 44.22), MMLU Pro (83 / 116, score 69.06). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

MMLU

Off

80.50

48 / 64

MMLU Pro

Off

69.06

83 / 116

GPQA Diamond

Off

46.13

146 / 166

GPQA

Off

44.22

8 / 13

数学推理

1 evaluations

Benchmark / mode

Score

Rank/total

MATH

Off

69.42

20 / 42

常识问答

1 evaluations

Benchmark / mode

Score

Rank/total

SimpleQA

Off

12.10

37 / 45

View benchmark analysis Compare with other models

Mistral-Small-3.2

Publisher

MistralAI

View publisher details

Mistral-Small-3.2-24B-Instruct-2506

Model Overview

Mistral-Small-3.2。官方将其定义为对前代 3.1 版本的“微小更新”（minor update），但如果我们仅仅将其视为一次寻常的补丁，就可能错过了其背后所揭示的行业趋势——大模型竞争的下半场，已从追求“更高、更快、更强”的极限参数竞赛，悄然转向了对“精准、可靠、可用”的工程化打磨。

本次更新的本质，并非一场性能上的暴力革命，而是一次外科手术式的精准优化。它解决的是开发者在实际应用中最头疼的几个顽疾：指令“听不懂”、回答“复读机”以及工具“用不顺”。本文将深入剖析这些看似“微小”的改进，阐明为什么说 Mistral-Small-3.2 是通往生产级可靠AI的必经之路。

背景与定位：24B参数的“全能甜点位”

在深入3.2版本之前，我们必须清晰地认识其前身 Mistral-Small-3.1 的市场定位。它是一个拥有240亿参数的多模态模型，凭借 Apache 2.0 开源许可、128k 的长上下文窗口以及顶级的视觉理解能力，精准地卡在了“性能怪兽”（如GPT-4、Claude 3 Opus）与“轻量快马”（如Gemma 2B/7B）之间的“全能甜点位”。

它既能被部署在单张RTX 4090或高配MacBook上，满足本地化和数据隐私的需求，又具备了与业界顶尖闭源小模型（如GPT-4o Mini, Claude 3.5 Haiku）掰手腕的实力。其核心价值在于为开发者提供了一个性能强大、成本可控、部署灵活的开源选择。

核心升级：从“能用”到“好用”的精准进化

Mistral-Small-3.2 的所有升级，都指向了一个共同的目标：提升模型的可靠性与可控性。这正是将一个强大的模型从“Demo玩具”转变为“生产工具”的关键。

1. 指令遵循 (Instruction Following): 智能的基石

这是本次更新中最具价值的部分。一个模型无论知识多渊博，如果不能精确理解并执行用户的指令，其价值将大打折扣。Mistral-Small-3.2 在这方面取得了惊人的进步。

Model	Wildbench v2	Arena Hard v2
Small 3.1 24B Instruct	55.6%	19.56%
Small 3.2 24B Instruct	65.33%	43.1%

Wildbench v2 的得分从 55.6% 跃升至 65.33%，这意味着模型在处理复杂、多步骤的指令时表现得更加出色。
Arena Hard v2 的得分更是从 19.56% 翻倍增长至 43.1%。这个基准专门测试模型在困难、刁钻问题上的表现，如此巨大的提升说明模型对指令的理解深度和鲁棒性有了质的飞跃。

Why it matters? 对于构建AI Agent或复杂工作流的开发者而言，这意味着更少的“指令-调试”循环，更高的任务成功率，以及更可靠的自动化流程。

2. 重复性错误减半 (Repetition Errors): 告别无限循环

每个与大模型深度交互过的人，可能都遇到过模型突然“卡壳”，开始无限重复某个词或一句话的尴尬情况。这不仅是糟糕的用户体验，在API按量付费的场景下更是成本灾难。

Model	无限生成错误率 (内部测试，越低越好)
Small 3.1 24B Instruct	2.11%
Small 3.2 24B Instruct	1.29%

Small-3.2 将这类“无限生成”的错误率降低了近一半（从2.11%降至1.29%）。这表明 Mistral 团队在训练数据和模型内部注意力机制上做了精细的调整，有效抑制了这种常见的模型“崩溃”模式。

3. 函数调用 (Function Calling): 更稳健的“连接器”

官方称 Function Calling 模板变得“更加稳健”（more robust）。虽然没有给出具体的量化指标，但这同样是生产应用中的核心痛点。函数调用是LLM连接外部世界（API、数据库、工具）的桥梁。一个不稳健的函数调用系统，可能导致JSON格式错误、参数遗漏或调用失败，让整个Agent系统瘫痪。这次优化意味着开发者可以更信赖模型来驱动工具，构建更可靠、更复杂的应用。

数据洞察：几乎“零成本”的可靠性飞跃

最令人印象深刻的是，Mistral-Small-3.2 在实现上述可靠性提升的同时，几乎没有牺牲其在其他领域的性能。

让我们看看关键的STEM和视觉能力基准测试数据：

Model	MMLU	MATH	MMMU (Vision)	ChartQA (Vision)
Small 3.1 24B	80.62%	69.30%	64.00%	86.24%
Small 3.2 24B	80.50%	69.42%	62.50%	87.4%

数据清晰地显示，在MMLU（综合知识）、MATH（数学推理）和MMMU（多模态理解）等核心指标上，3.2版本与3.1版本基本持平，波动都在误差范围内。

这是本次更新最核心的价值所在。 很多时候，模型的专项优化（如提升对话能力）往往会以牺牲其在其他领域（如编码或数学）的性能为代价。而Mistral的这次更新，向我们展示了一种更加成熟的模型迭代范式：在不损害模型通用基础能力的前提下，对特定的短板进行靶向增强。

这意味着，开发者可以无缝升级到Small-3.2，立即享受到可靠性带来的好处，而无需担心原有应用场景的性能衰退。

开发者视角：这对我们意味着什么？

更低的开发与维护成本: 更强的指令遵循和更少的重复错误，意味着开发者需要花费更少的时间在“提示工程魔法”和“错误处理逻辑”上，可以将更多精力投入到核心业务逻辑。
更可靠的Agent应用: 对于依赖函数调用构建的AI Agent，模型的可靠性就是整个系统的生命线。Small-3.2的稳健性让其成为构建生产级Agent的更优选择。
注意部署细节: Mistral官方强烈推荐使用 vLLM 框架来部署该模型，以获得最佳的性能和函数调用支持。同时，官方也指出，在BF16/FP16精度下运行需要约 55GB的GPU显存，这对部署硬件提出了明确的要求。

总结与展望

Mistral-Small-3.2 是一次教科书式的模型迭代。它没有追求在排行榜上再添几个华而不实的SOTA（State-of-the-Art）分数，而是选择直面开发者在真实世界中遇到的核心痛点，进行了一次“实用主义”的胜利。

这次“微小更新”传递出一个清晰的信号：开源大模型的竞争正在进入深水区。当参数、架构和训练数据趋于同质化后，决胜的关键将在于模型的可靠性、可控性和工程化的成熟度。Mistral 正在用行动证明，他们不仅懂得如何打造一个强大的模型，更懂得如何将其打磨成一件开发者信赖的利器。

对于正在寻找一个性能强大、开源且足够可靠的模型来构建应用的开发者来说，Mistral-Small-3.2 无疑是一个值得立即评估的强力候选者。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送