Voxtral-Small-24B
Voxtral-Small-24B-2507
模型参数
240.0亿
上下文长度
32K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
32K tokens
最大输出长度
30 tokens
模型类型
暂无数据
发布时间
2025-07-15
模型文件大小
48.5GB
MoE架构
否
总参数 / 激活参数
240.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
3/5
默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.01 | $0.3 |
| 音频 | $0.004 | -- |
评测得分
当前尚无可展示的评测数据。
发布机构
MistralAI
查看发布机构详情 模型解读
Voxtral-Small-24B是MistralAI开源的一款语音识别大模型,参数规模为240亿,基于Mistral Small 3.1语言模型增强开发而成。该模型在保留优秀文本理解能力的同时,整合了先进的音频输入处理技术,支持语音转录、翻译及音频内容理解等任务,适用于多语言场景下的生产级应用。
核心特性
- 音频与文本能力结合在Mistral Small 3.1的基础上扩展了音频理解功能,支持纯转录模式(自动检测语言并转写)和语义理解模式(直接通过音频提问或生成摘要)。文本能力与Mistral Small 3.1保持一致,可作为其替代模型使用。
- 长上下文支持上下文窗口达32k token,可处理长达30分钟的音频转录或40分钟的语义分析任务。
- 多语言与功能调用支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等语言的自动检测与转写,在FLEURS、Mozilla Common Voice等基准测试中表现优异。支持通过语音直接触发后端函数或API调用,无需中间解析步骤。
- 内置任务处理提供音频问答、结构化摘要生成功能,无需额外串联语音识别(ASR)与语言模型。
性能表现
- 语音转录:在FLEURS、Mozilla Common Voice等测试中,平均词错误率(WER)低于Whisper large-v3,部分任务超越GPT-4o mini和Gemini 2.5 Flash。
- 音频理解:在合成语音问答、长音频理解基准测试中,性能接近GPT-4o-mini和Gemini 2.5 Flash,语音翻译任务达到当前最优水平。
- 文本任务:保留Mistral Small 3.1的文本处理能力,适用于通用语言理解场景。
部署与成本
- 框架支持:推荐使用vLLM推理框架(需设置temperature=0.2和top_p=0.95用于对话,temperature=0.0用于转录)。
- API价格:公开API定价为每分钟0.001美元,宣称成本低于同类竞品(如Whisper或ElevenLabs Scribe)的一半。
- 本地部署:模型提供Hugging Face下载,支持私有化部署及生产级多GPU/节点扩展。
企业级功能
MistralAI提供定制化支持,包括:
- 行业特定微调(如医疗、法律领域);
- 扩展功能开发(说话人识别、情感检测、更长上下文窗口等);
- 私有化部署方案,满足数据合规需求。
限制与未来更新
- 当前版本暂不支持系统提示(system prompts);
- 计划新增说话人分割、词级时间戳、非语音音频识别等功能。
Voxtral-Small-24B以Apache 2.0协议开源,旨在为开发者提供高性价比、可控制的语音理解解决方案,适用于从边缘设备到云端的大规模应用场景。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
