Voxtral-Mini-3B-2507
不支持
32K tokens
30 tokens
语音大模型
2025-07-15
9.35 GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0.04 美元/100 万tokens | 0.04 美元/100 万tokens |
| 音频 | 0.001 美元/分钟 |
Voxtral Mini 1.0 (3B) 是 MistralAI 开源的轻量级语音识别模型,参数规模为 30 亿,基于 Ministral-3B 语言模型扩展音频能力开发而成。作为 Voxtral 系列成员(另含 240 亿参数的 Small 24B 版本),该模型专注为边缘设备与低成本场景提供高效的语音转录、翻译及语义理解功能。
项目说明
推理框架推荐使用 vLLM:
• 对话理解:temperature=0.2, top_p=0.95
• 语音转录:temperature=0.0
输入支持单消息多音频、多轮音频对话
API 成本$0.001/分钟(宣称成本为 Whisper 的一半)
开源协议Apache 2.0(Hugging Face 下载)
Voxtral Mini 3B 以 30 亿参数轻量化架构实现语音-文本一体化处理,在边缘设备与低成本场景中提供:
关注DataLearnerAI微信公众号,接受最新大模型资讯