智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

就在刚才,智谱推出了两个语音识别模型:闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同,这次聚焦的是语音转文字(ASR)任务,尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。


GLM-ASR(闭源):闭源的高质量语音识别大模型,

GLM-ASR 被智谱官方描述为一款新一代语音识别模型:“将语音转为高质量文本”,可用于从日常聊天到会议记录、工作文档、客服语音、视频字幕等多种场景。

该模型未开源,但是价格很便宜。根据官方计费页面,GLM-ASR 的价格为 0.06 元/分钟,而OpenAI的价格大约是$0.006 / minute,换算月0.04元/一分钟,似乎GLM更贵。

调用方式支持通过其 SDK(Python / Java 等)进行 API 调用。官方文档提供示例:将音频文件提交,即可获得流式的文本输出。

根据官方介绍,GLM-ASR 的主要特点包括:上下文理解、抗噪声音干扰、多语言 / 多方言支持。

GLM-ASR-Nano-2512:轻量开源模型,仅15亿参数可本地部署甚至手机部署

相比闭源服务,GLM-ASR-Nano-2512 为开源模型,参数规模约 1.5B,适合开发者或企业自行部署、微调与定制。

  • 模型采用 Apache-2.0 许可证,允许商业使用与二次开发
  • 官方同步发布了 模型权重、推理脚本、依赖与示例

这意味着你可以把它当作内部语音识别服务来部署,而不必依赖外部 API,适用于对隐私 / 数据安全有要求的场景。

根据官方文档,虽然这个模型参数不是很高,但是GLM-ASR-Nano-2512 的字符错误率(CER)被标注为 0.0717,效果好于OpenAI此前的Whipser V3模型。

在语言支持方面,主要包括:

  • 中文:包括普通话和多种方言(例如粤语、闽南语、吴语等)
  • 英语(含多种口音)
  • 其他主流语言与地区语言(据称覆盖几十种语种)

这种设定显示出其对中文本地化需求、对噪声 / 方言 /复杂语音环境的关注。

GLM-ASR与GLM-ASR-Nano-2512对比总结

项目 GLM-ASR(闭源) GLM-ASR-Nano-2512(开源)
类型 商业 API 服务 开源模型(可自部署)
价格 0.06 元/分钟 自主部署,无 API 调用成本
适用环境 需要稳定服务、无需运维 需本地部署 / 隐私 / 自定义需求
输出文本 流式 / 带标点 / 高可读性 依赖部署与配置,灵活
语言与方言 官方支持多语种 / 多方言 明确支持中文普通话 + 方言 + 英语 +其他语言
优势场景 快速上线、自动转写、视频字幕、客服 / 会议场景 本地化部署、可定制、隐私、安全、适合特殊场景

对开发者 / 产品团队的意义

对于需要语音输入、转写、字幕、客服录音整理、会议记录、语音搜索等功能的团队来说,这次发布提供了两种非常不同但有补充意义的选择。

如果你希望快速上线、使用方便、不想管理模型,闭源 GLM-ASR 是一个便捷选项。你可以通过简单 API 上传音频,获得可读文本,适合业务迭代、快速产品上线。

如果你更在意数据隐私、本地部署、可控性 + 自定义需求(例如行业术语/专属词典、方言识别、企业专有流程等),GLM-ASR-Nano-2512 提供了灵活性与自主权。你可以在自己服务器上部署、做微调,或集成进已有的语音 + 文本 + LLM 流水线。

此外,对中文本地化语音应用、对方言 / 噪声 /复杂环境有真实需求的团队来说,这是一个值得认真测试和评估的新选项。


限制与不确定性 / 后续观察方向

尽管公开了 CER 指标、语种支持和定价信息,但仍有一些我们暂时无法确认的地方,比如:

  • 对比其他主流开源模型 / Whisper 系列的公平对比数据(例如不同噪声等级、不同方言、混合语言场景下的对比)
  • 对多说话人、重叠语音(overlapping speech)、长时会议、音频质量极差场景的表现
  • 开源模型在不同硬件 / 各种采样率 /不同音频编码下的稳定性与兼容性

因此,在把它投入生产之前,做好充分的测试与对比是必要的。建议开发者以自己真实业务音频作为第一批测试数据,关注错误率、漏识别、断句、标点、专有名词准确性等维度。


总结

智谱这次发布的两个 ASR 模型 — 闭源 GLM-ASR 和开源 GLM-ASR-Nano-2512 — 提供了针对中文语音识别的两个不同定位:一种是方便快捷、适合直接使用的 API 服务;另一种是灵活可控、适合本地部署与定制的开源模型。对于需要中文 / 方言 /复杂环境语音识别的团队,这是一次值得关注的尝试。

更多GLM-ASR模型信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/glm-asr-nano-2512

https://www.datalearner.com/ai-models/pretrained-models/glm-asr-2512

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码