Voxtral-Mini-3B
Voxtral-Mini-3B-2507
模型参数
30.0亿
上下文长度
32K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
32K tokens
最大输出长度
30 tokens
模型类型
暂无数据
发布时间
2025-07-15
模型文件大小
9.35 GB
MoE架构
否
总参数 / 激活参数
30.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
4/5
默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.04 | $0.04 |
| 音频 | $0.001 | -- |
评测得分
当前尚无可展示的评测数据。
发布机构
MistralAI
查看发布机构详情 模型解读
Voxtral Mini 1.0 (3B) 是 MistralAI 开源的轻量级语音识别模型,参数规模为 30 亿,基于 Ministral-3B 语言模型扩展音频能力开发而成。作为 Voxtral 系列成员(另含 240 亿参数的 Small 24B 版本),该模型专注为边缘设备与低成本场景提供高效的语音转录、翻译及语义理解功能。
核心特性
- 音频-文本融合架构在 Ministral-3B 文本模型基础上整合语音处理模块,支持两种工作模式:纯转录模式:自动检测语言并转写(默认开启);语义理解模式:直接通过音频提问或生成结构化摘要,无需额外串联 ASR 与语言模型。
- 长上下文支持32k token 上下文窗口,支持处理 30 分钟音频转录 或 40 分钟语义分析任务。
- 多语言与功能调用自动识别英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等 8 种核心语言;支持语音直接触发后端函数、API 或工作流,实现端到端指令执行。
- 文本能力继承完全保留 Ministral-3B 的文本理解与生成能力,可作为原模型的增强替代品。
性能表现
- 语音转录:在 FLEURS、Mozilla Common Voice 等基准测试中,词错误率(WER)低于 OpenAI Whisper,尤其擅长短音频与多语言场景。
- 音频理解:支持端到端语音问答、翻译及长音频摘要生成,消除传统多模型串联的复杂性与误差累积。
- 效率优势:轻量化设计(3B 参数)适配本地或边缘设备部署,在低算力环境下保持实时响应。
部署与使用
项目说明
推理框架推荐使用 vLLM:
• 对话理解:temperature=0.2, top_p=0.95
• 语音转录:temperature=0.0
输入支持单消息多音频、多轮音频对话
API 成本$0.001/分钟(宣称成本为 Whisper 的一半)
开源协议Apache 2.0(Hugging Face 下载)
限制与企业支持
- 当前限制:暂不支持系统提示(system prompts);未开放说话人分割、情感检测等高级功能(规划中)。
- 企业定制:MistralAI 提供私有化部署、行业微调(如医疗/客服领域)及生产级优化支持,满足特定场景需求。
定位总结
Voxtral Mini 3B 以 30 亿参数轻量化架构实现语音-文本一体化处理,在边缘设备与低成本场景中提供:
- 开源可控:Apache 2.0 协议支持本地/私有化部署;
- 端到端效率:消除传统 ASR+LLM 串联的冗余流程;
- 成本优势:API 单价低至 $0.001/分钟,为 Whisper 替代方案。其设计目标是为资源受限环境提供生产级语音智能,同时保留扩展至企业级应用的灵活性。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
