智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试
就在刚才,智谱推出了两个语音识别模型:闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同,这次聚焦的是语音转文字(ASR)任务,尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

GLM-ASR(闭源):闭源的高质量语音识别大模型,
GLM-ASR 被智谱官方描述为一款新一代语音识别模型:“将语音转为高质量文本”,可用于从日常聊天到会议记录、工作文档、客服语音、视频字幕等多种场景。
该模型未开源,但是价格很便宜。根据官方计费页面,GLM-ASR 的价格为 ,而OpenAI的价格大约是$0.006 / minute,换算月0.04元/一分钟,似乎GLM更贵。
