加载中...

Voxtral-Mini-3B（Voxtral-Mini-3B-2507）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

Voxtral-Mini-3B

Name: Voxtral-Mini-3B-2507
Availability: InStock
Author: MistralAI

Voxtral-Mini-3B-2507

发布时间: 2025-07-15更新于: 2025-07-16 15:07:49640

在线体验GitHubHugging Face Compare

模型参数

30.0亿

上下文长度

32K

中文支持

不支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Voxtral-Mini-3B

模型基本信息

推理过程

不支持

上下文长度

32K tokens

最大输出长度

30 tokens

模型类型

语音大模型

发布时间

2025-07-15

模型文件大小

Voxtral-Mini-3B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

在线体验

Voxtral-Mini-3B

官方介绍与博客

官方论文

Voxtral: Introducing frontier open source speech understanding models.

DataLearnerAI博客

暂无介绍博客

Voxtral-Mini-3B

API接口信息

接口速度

4/5

Voxtral-Mini-3B

评测结果

当前尚无可展示的评测数据。

Voxtral-Mini-3B

发布机构

MistralAI

查看发布机构详情

Voxtral-Mini-3B-2507

模型解读

Voxtral Mini 1.0 (3B) 是 MistralAI 开源的轻量级语音识别模型，参数规模为 30 亿，基于 Ministral-3B 语言模型扩展音频能力开发而成。作为 Voxtral 系列成员（另含 240 亿参数的 Small 24B 版本），该模型专注为边缘设备与低成本场景提供高效的语音转录、翻译及语义理解功能。

核心特性

音频-文本融合架构在 Ministral-3B 文本模型基础上整合语音处理模块，支持两种工作模式：纯转录模式：自动检测语言并转写（默认开启）；语义理解模式：直接通过音频提问或生成结构化摘要，无需额外串联 ASR 与语言模型。
长上下文支持32k token 上下文窗口，支持处理 30 分钟音频转录或 40 分钟语义分析任务。
多语言与功能调用自动识别英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等 8 种核心语言；支持语音直接触发后端函数、API 或工作流，实现端到端指令执行。
文本能力继承完全保留 Ministral-3B 的文本理解与生成能力，可作为原模型的增强替代品。

性能表现

语音转录：在 FLEURS、Mozilla Common Voice 等基准测试中，词错误率（WER）低于 OpenAI Whisper，尤其擅长短音频与多语言场景。
音频理解：支持端到端语音问答、翻译及长音频摘要生成，消除传统多模型串联的复杂性与误差累积。
效率优势：轻量化设计（3B 参数）适配本地或边缘设备部署，在低算力环境下保持实时响应。

部署与使用

项目说明

推理框架推荐使用 vLLM：

• 对话理解：temperature=0.2, top_p=0.95

• 语音转录：temperature=0.0

输入支持单消息多音频、多轮音频对话

API 成本$0.001/分钟（宣称成本为 Whisper 的一半）

开源协议Apache 2.0（Hugging Face 下载）

限制与企业支持

当前限制：暂不支持系统提示（system prompts）；未开放说话人分割、情感检测等高级功能（规划中）。
企业定制：MistralAI 提供私有化部署、行业微调（如医疗/客服领域）及生产级优化支持，满足特定场景需求。

定位总结

Voxtral Mini 3B 以 30 亿参数轻量化架构实现语音-文本一体化处理，在边缘设备与低成本场景中提供：

开源可控：Apache 2.0 协议支持本地/私有化部署；
端到端效率：消除传统 ASR+LLM 串联的冗余流程；
成本优势：API 单价低至 $0.001/分钟，为 Whisper 替代方案。其设计目标是为资源受限环境提供生产级语音智能，同时保留扩展至企业级应用的灵活性。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态	输入	输出
文本	$0.04	$0.04
音频	$0.001	--