智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型:闭源云端模型 GLM-ASR(具体版本为 GLM-ASR-2512)与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力,后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。
GLM-ASR(闭源):面向生产场景的在线语音识别模型
模型定位
GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型,支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”,适用于会议、客服、教学、多说话人交流等实际业务场景,而不是仅面对干净语音的实验室条件。
主要特点
- 上下文理解能力增强:在连续语音中,能够根据前后语境生成更自然、连贯的文本,而不只是逐字式转写。
- 噪声鲁棒性强:即便存在机械噪声、环境噪音、风噪、混响等复杂因素,仍能保持较稳定的识别质量。
- 多语种与方言适配:除普通话与英语外,还支持多种中国方言,覆盖从东北官话到西南官话等多个地域变体,适应国内复杂语言环境。
- 字符错误率 CER 0.0717:在多场景测试中的整体表现达到 0.0717 的 CER,属于云端 ASR 服务中的较高水准。
输入与输出
- 输入:音频文件(wav/mp3),支持直接上传文件或 Base64 方式提交。
- 输出:结构化、有标点的自然语言文本。
音频时长上限为 30 秒(同步接口),更长内容通常以分段方式处理。
API 调用与参数
GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK(Python、Java 等),关键参数包括:
- model:glm-asr-2512
- stream:是否采用流式分段返回
- prompt:连续识别时可提供之前转写片段作为上下文
- hotwords:用于强化特定行业词汇和专有名词
- request_id / user_id:便于业务侧跟踪、审计与风控
这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。
适用场景
GLM-ASR 的设计面向广泛而真实的使用环境,包括:
- 企业会议记录:连续多轮、多人交互的长语音内容转写
- 客户服务与质检:自动转录客服通话并用于情绪分析与业务分类
- 教学与培训记录:课堂、讲座录音转写
- 视频字幕生成:直播、录播视频自动生成文本字幕
- 车载语音与智能家居:适应自然口音差异的语音指令识别
定价与并发能力
- 价格:0.06 元 / 分钟音频
- 并发限制:按用户等级分级管理(例如基础账户 5 并发、高等级账户可达 20 并发)
这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景,也方便成本估算。