DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

2025/12/10 11:10:41
1,070 阅读
ASRGLM-ASR多模态大模型自动语音识别

就在刚才,智谱推出了两个语音识别模型:闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同,这次聚焦的是语音转文字(ASR)任务,尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

GLM-ASR(闭源):闭源的高质量语音识别大模型,

GLM-ASR 被智谱官方描述为一款新一代语音识别模型:“将语音转为高质量文本”,可用于从日常聊天到会议记录、工作文档、客服语音、视频字幕等多种场景。

该模型未开源,但是价格很便宜。根据官方计费页面,GLM-ASR 的价格为 0.06 元/分钟,而OpenAI的价格大约是$0.006 / minute,换算月0.04元/一分钟,似乎GLM更贵。

调用方式支持通过其 SDK(Python / Java 等)进行 API 调用。官方文档提供示例:将音频文件提交,即可获得流式的文本输出。

根据官方介绍,GLM-ASR 的主要特点包括:上下文理解、抗噪声音干扰、多语言 / 多方言支持。

GLM-ASR-Nano-2512:轻量开源模型,仅15亿参数可本地部署甚至手机部署

相比闭源服务,GLM-ASR-Nano-2512 为开源模型,参数规模约 1.5B,适合开发者或企业自行部署、微调与定制。

  • 模型采用 Apache-2.0 许可证,允许商业使用与二次开发
  • 官方同步发布了 模型权重、推理脚本、依赖与示例

这意味着你可以把它当作内部语音识别服务来部署,而不必依赖外部 API,适用于对隐私 / 数据安全有要求的场景。

根据官方文档,虽然这个模型参数不是很高,但是GLM-ASR-Nano-2512 的字符错误率(CER)被标注为 0.0717,效果好于OpenAI此前的Whipser V3模型。

在语言支持方面,主要包括:

  • 中文:包括普通话和多种方言(例如粤语、闽南语、吴语等)
  • 英语(含多种口音)
  • 其他主流语言与地区语言(据称覆盖几十种语种)

这种设定显示出其对中文本地化需求、对噪声 / 方言 /复杂语音环境的关注。

GLM-ASR与GLM-ASR-Nano-2512对比总结

项目GLM-ASR(闭源)GLM-ASR-Nano-2512(开源)
类型商业 API 服务开源模型(可自部署)
价格0.06 元/分钟自主部署,无 API 调用成本
适用环境需要稳定服务、无需运维需本地部署 / 隐私 / 自定义需求
输出文本流式 / 带标点 / 高可读性依赖部署与配置,灵活
语言与方言官方支持多语种 / 多方言明确支持中文普通话 + 方言 + 英语 +其他语言
优势场景快速上线、自动转写、视频字幕、客服 / 会议场景本地化部署、可定制、隐私、安全、适合特殊场景

对开发者 / 产品团队的意义

对于需要语音输入、转写、字幕、客服录音整理、会议记录、语音搜索等功能的团队来说,这次发布提供了两种非常不同但有补充意义的选择。

如果你希望快速上线、使用方便、不想管理模型,闭源 GLM-ASR 是一个便捷选项。你可以通过简单 API 上传音频,获得可读文本,适合业务迭代、快速产品上线。

如果你更在意数据隐私、本地部署、可控性 + 自定义需求(例如行业术语/专属词典、方言识别、企业专有流程等),GLM-ASR-Nano-2512 提供了灵活性与自主权。你可以在自己服务器上部署、做微调,或集成进已有的语音 + 文本 + LLM 流水线。

此外,对中文本地化语音应用、对方言 / 噪声 /复杂环境有真实需求的团队来说,这是一个值得认真测试和评估的新选项。


限制与不确定性 / 后续观察方向

尽管公开了 CER 指标、语种支持和定价信息,但仍有一些我们暂时无法确认的地方,比如:

  • 对比其他主流开源模型 / Whisper 系列的公平对比数据(例如不同噪声等级、不同方言、混合语言场景下的对比)
  • 对多说话人、重叠语音(overlapping speech)、长时会议、音频质量极差场景的表现
  • 开源模型在不同硬件 / 各种采样率 /不同音频编码下的稳定性与兼容性

因此,在把它投入生产之前,做好充分的测试与对比是必要的。建议开发者以自己真实业务音频作为第一批测试数据,关注错误率、漏识别、断句、标点、专有名词准确性等维度。


总结

智谱这次发布的两个 ASR 模型 — 闭源 GLM-ASR 和开源 GLM-ASR-Nano-2512 — 提供了针对中文语音识别的两个不同定位:一种是方便快捷、适合直接使用的 API 服务;另一种是灵活可控、适合本地部署与定制的开源模型。对于需要中文 / 方言 /复杂环境语音识别的团队,这是一次值得关注的尝试。

更多GLM-ASR模型信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/glm-asr-nano-2512

https://www.datalearner.com/ai-models/pretrained-models/glm-asr-2512

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
  • 三年后OpenAI再次发布自动语音识别和语音合成大模型(替换Whisper系列):不开源,仅提供API,英文错字率已经下降到2.46%
  • MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型:MMS
  • 在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper:8GB显存即可针对你自己的数据建立ASR模型
  • 比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!
  • 重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!
  • DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B
  • 智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署