智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

就在刚才，智谱推出了两个语音识别模型：闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同，这次聚焦的是语音转文字（ASR）任务，尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

GLM-ASR（闭源）：闭源的高质量语音识别大模型，

GLM-ASR 被智谱官方描述为一款新一代语音识别模型：“将语音转为高质量文本”，可用于从日常聊天到会议记录、工作文档、客服语音、视频字幕等多种场景。

该模型未开源，但是价格很便宜。根据官方计费页面，GLM-ASR 的价格为 0.06 元/分钟，而OpenAI的价格大约是$0.006 / minute，换算月0.04元/一分钟，似乎GLM更贵。

调用方式支持通过其 SDK（Python / Java 等）进行 API 调用。官方文档提供示例：将音频文件提交，即可获得流式的文本输出。

根据官方介绍，GLM-ASR 的主要特点包括：上下文理解、抗噪声音干扰、多语言 / 多方言支持。

GLM-ASR-Nano-2512：轻量开源模型，仅15亿参数可本地部署甚至手机部署

相比闭源服务，GLM-ASR-Nano-2512 为开源模型，参数规模约 1.5B，适合开发者或企业自行部署、微调与定制。

模型采用 Apache-2.0 许可证，允许商业使用与二次开发
官方同步发布了 模型权重、推理脚本、依赖与示例

这意味着你可以把它当作内部语音识别服务来部署，而不必依赖外部 API，适用于对隐私 / 数据安全有要求的场景。

根据官方文档，虽然这个模型参数不是很高，但是GLM-ASR-Nano-2512 的字符错误率（CER）被标注为 0.0717，效果好于OpenAI此前的Whipser V3模型。

在语言支持方面，主要包括：

中文：包括普通话和多种方言（例如粤语、闽南语、吴语等）
英语（含多种口音）
其他主流语言与地区语言（据称覆盖几十种语种）

这种设定显示出其对中文本地化需求、对噪声 / 方言 /复杂语音环境的关注。

GLM-ASR与GLM-ASR-Nano-2512对比总结

项目	GLM-ASR（闭源）	GLM-ASR-Nano-2512（开源）
类型	商业 API 服务	开源模型（可自部署）
价格	0.06 元/分钟	自主部署，无 API 调用成本
适用环境	需要稳定服务、无需运维	需本地部署 / 隐私 / 自定义需求
输出文本	流式 / 带标点 / 高可读性	依赖部署与配置，灵活
语言与方言	官方支持多语种 / 多方言	明确支持中文普通话 + 方言 + 英语 +其他语言
优势场景	快速上线、自动转写、视频字幕、客服 / 会议场景	本地化部署、可定制、隐私、安全、适合特殊场景

对开发者 / 产品团队的意义

对于需要语音输入、转写、字幕、客服录音整理、会议记录、语音搜索等功能的团队来说，这次发布提供了两种非常不同但有补充意义的选择。

如果你希望快速上线、使用方便、不想管理模型，闭源 GLM-ASR 是一个便捷选项。你可以通过简单 API 上传音频，获得可读文本，适合业务迭代、快速产品上线。

如果你更在意数据隐私、本地部署、可控性 + 自定义需求（例如行业术语／专属词典、方言识别、企业专有流程等），GLM-ASR-Nano-2512 提供了灵活性与自主权。你可以在自己服务器上部署、做微调，或集成进已有的语音 + 文本 + LLM 流水线。

此外，对中文本地化语音应用、对方言 / 噪声 /复杂环境有真实需求的团队来说，这是一个值得认真测试和评估的新选项。

限制与不确定性 / 后续观察方向

尽管公开了 CER 指标、语种支持和定价信息，但仍有一些我们暂时无法确认的地方，比如：

对比其他主流开源模型 / Whisper 系列的公平对比数据（例如不同噪声等级、不同方言、混合语言场景下的对比）
对多说话人、重叠语音（overlapping speech）、长时会议、音频质量极差场景的表现
开源模型在不同硬件 / 各种采样率 /不同音频编码下的稳定性与兼容性

因此，在把它投入生产之前，做好充分的测试与对比是必要的。建议开发者以自己真实业务音频作为第一批测试数据，关注错误率、漏识别、断句、标点、专有名词准确性等维度。

总结

智谱这次发布的两个 ASR 模型 — 闭源 GLM-ASR 和开源 GLM-ASR-Nano-2512 — 提供了针对中文语音识别的两个不同定位：一种是方便快捷、适合直接使用的 API 服务；另一种是灵活可控、适合本地部署与定制的开源模型。对于需要中文 / 方言 /复杂环境语音识别的团队，这是一次值得关注的尝试。

更多GLM-ASR模型信息参考DataLearnerAI模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/glm-asr-nano-2512

https://www.datalearner.com/ai-models/pretrained-models/glm-asr-2512

GLM-ASR（闭源）：闭源的高质量语音识别大模型，

GLM-ASR-Nano-2512：轻量开源模型，仅15亿参数可本地部署甚至手机部署

GLM-ASR与GLM-ASR-Nano-2512对比总结

对开发者 / 产品团队的意义

限制与不确定性 / 后续观察方向

总结

DataLearner 官方微信