Vo

Voxtral-Small-24B

语音大模型

Voxtral-Small-24B-2507

发布时间: 2025-07-15

482
模型参数(Parameters)
240.0
最高上下文长度(Context Length)
32K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果

30 tokens

模型类型

语音大模型

发布时间

2025-07-15

模型预文件大小

48.5GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.01 美元/100 万tokens 0.3 美元/100 万tokens
音频 0.004 美元/分钟 --

Voxtral-Small-24B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Voxtral-Small-24B-2507模型解读

Voxtral-Small-24B是MistralAI开源的一款语音识别大模型,参数规模为240亿,基于Mistral Small 3.1语言模型增强开发而成。该模型在保留优秀文本理解能力的同时,整合了先进的音频输入处理技术,支持语音转录、翻译及音频内容理解等任务,适用于多语言场景下的生产级应用。

核心特性

  1. 音频与文本能力结合在Mistral Small 3.1的基础上扩展了音频理解功能,支持纯转录模式(自动检测语言并转写)和语义理解模式(直接通过音频提问或生成摘要)。文本能力与Mistral Small 3.1保持一致,可作为其替代模型使用。
  2. 长上下文支持上下文窗口达32k token,可处理长达30分钟的音频转录或40分钟的语义分析任务。
  3. 多语言与功能调用支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等语言的自动检测与转写,在FLEURS、Mozilla Common Voice等基准测试中表现优异。支持通过语音直接触发后端函数或API调用,无需中间解析步骤。
  4. 内置任务处理提供音频问答、结构化摘要生成功能,无需额外串联语音识别(ASR)与语言模型。

性能表现

  • 语音转录:在FLEURS、Mozilla Common Voice等测试中,平均词错误率(WER)低于Whisper large-v3,部分任务超越GPT-4o mini和Gemini 2.5 Flash。
  • 音频理解:在合成语音问答、长音频理解基准测试中,性能接近GPT-4o-mini和Gemini 2.5 Flash,语音翻译任务达到当前最优水平。
  • 文本任务:保留Mistral Small 3.1的文本处理能力,适用于通用语言理解场景。

部署与成本

  • 框架支持:推荐使用vLLM推理框架(需设置temperature=0.2和top_p=0.95用于对话,temperature=0.0用于转录)。
  • API价格:公开API定价为每分钟0.001美元,宣称成本低于同类竞品(如Whisper或ElevenLabs Scribe)的一半。
  • 本地部署:模型提供Hugging Face下载,支持私有化部署及生产级多GPU/节点扩展。

企业级功能

MistralAI提供定制化支持,包括:

  • 行业特定微调(如医疗、法律领域);
  • 扩展功能开发(说话人识别、情感检测、更长上下文窗口等);
  • 私有化部署方案,满足数据合规需求。

限制与未来更新

  • 当前版本暂不支持系统提示(system prompts);
  • 计划新增说话人分割、词级时间戳、非语音音频识别等功能。

Voxtral-Small-24B以Apache 2.0协议开源,旨在为开发者提供高性价比、可控制的语音理解解决方案,适用于从边缘设备到云端的大规模应用场景。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat