大模型评测

大模型列表

大模型对比

搜索博客

加载中...

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

页面导航

目录

大模型列表GLM-ASR-Nano-2512

GL

GLM-ASR-Nano-2512

GLM-ASR-Nano-2512

发布时间: 2025-12-10581

在线体验GitHub Hugging Face Compare

模型参数

20.0亿

上下文长度

暂无数据

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-ASR-Nano-2512

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

暂无数据

最大输出长度

暂无数据

模型类型

暂无数据

发布时间

2025-12-10

模型文件大小

4.52 GB

MoE架构

否

总参数 / 激活参数

20.0 亿 / 不涉及

知识截止

暂无数据

GLM-ASR-Nano-2512

开源和体验地址

代码开源状态

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-ASR

Hugging Face

https://huggingface.co/zai-org/GLM-ASR-Nano-2512

在线体验

暂无在线体验地址

GLM-ASR-Nano-2512

官方介绍与博客

官方论文

GLM-ASR-Nano-2512 Model Card (Hugging Face)

DataLearnerAI博客

暂无介绍博客

GLM-ASR-Nano-2512

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

GLM-ASR-Nano-2512

评测结果

当前尚无可展示的评测数据。

GLM-ASR-Nano-2512

发布机构

智谱AI

查看发布机构详情

GLM-ASR-Nano-2512

模型解读

GLM-ASR-Nano-2512 是智谱开源的语音识别模型，参数规模约 1.5B（在 Hugging Face 上被归类为 “2B params” 级别），定位是一款在真实复杂声学环境下也能稳定工作的通用 ASR 模型。官方的核心定位是：在保持相对紧凑体量的前提下，在多项基准上优于 OpenAI Whisper V3，面向中文为主的多语种、多方言、多噪声场景。

从模型卡与发布信息里，可以提炼出几个比较关键的技术特点：

1. 参数规模与权重形式

参数量级：约 1.5B（HF 元数据归类为 2B 级）
权重格式：Safetensors
精度：BF16

这种体量基本处在“可单卡部署”的上限区间：在 24GB 显存的 GPU 上做实时转写是可行的，也比较适合做本地服务或边缘侧部署，而不是只能放在大规模推理集群里。

2. 面向方言和真实口语的识别能力

官方特别强调了“方言”和“复杂口语”的支持，而不是只在标准普通话上做优化：

在标准普通话之外，对粤语进行了“重点优化”，并同时支持其他方言；
明确提出要“填补方言识别能力的缺口”，说明训练数据和优化目标中专门加入了方言语音；
这与很多以英文和“干净普通话”为主的国际开源 ASR 模型相比，是非常强的差异化特征。

换句话说，GLM-ASR-Nano-2512 不是简单把 Whisper 做个中文微调，而是针对“中文 + 方言”的语音分布做了专门设计和训练。

3. Whisper / Quiet Speech：低音量语音鲁棒性

模型卡里单独拎出了 “Low-Volume Speech Robustness” 这一点，说明在训练过程中专门覆盖了“耳语 / 小声说话”这类语音样本：

目标是在极低音量、信号较弱的场景下仍然能够稳定识别；
这类场景在传统 ASR 里往往会表现为大量漏字、整句缺失或识别质量崩溃；
对移动端、远距离拾音、用户不方便大声说话的应用场景，这个能力非常关键。

从产品角度看，这意味着它在“真实用户环境”中的有效范围更大，不需要强约束用户的说话方式。

4. 基准表现与对 Whisper V3 的对比

GLM-ASR-Nano-2512 的模型卡给出了一组总结性的评测信息：

在多个开源与闭源模型参与的对比中，GLM-ASR-Nano 在“平均错误率”指标上拿到了 4.10 的成绩；
官方描述为“在同类开源模型中平均错误率最低”，属于开源 ASR 模型中的 SOTA 水平之一；
特别强调了在 Wenet Meeting 和 Aishell-1 这两个数据集上的表现： Wenet Meeting：真实会议场景，包含噪声、多人轮流 / 重叠说话等复杂情况； Aishell-1：标准普通话数据集，是中文 ASR 里最常用的基准之一；
在这些数据集上，GLM-ASR-Nano-2512 与 Whisper V3 做了正面对比，给出的结论是“在中文相关基准上明显占优”。

这里的“4.10”是一个总体平均错误率（Average Error Rate），模型卡没有拆分成 WER / CER 及各数据集具体数值，但已经能说明它在常见的中文公开基准上处于相当高的水平，尤其是在复杂声学环境下的表现。

5. 针对真实复杂场景的设计取向

从“Designed for real-world complexity”这一句可以看出，GLM-ASR-Nano-2512 并不是以“干净录音室音频”为主要优化目标，而是刻意对多噪声、多口音、多说话人场景做了适配。结合基准说明和特性描述，可以归纳出几个设计侧重点：

强调对噪声、重叠语音、会议场景的适配，而不是只追求理想环境下的低错误率；
对中文方言、粤语等进行增强，而不是只关心标准普通话；
加入低音量 / 耳语场景训练，降低在真实手机 / 远距麦克风场景中的“听不清”问题。

换句话说，它是“从实际使用场景往回推需求”的 ASR，而不是“从学术基准往前推产品化”。

6. 推理与框架支持

在工程集成方面，模型卡已经给出了明确的技术路线：

当前可通过 Hugging Face transformers 直接加载推理；
官方计划支持 transformers 5.x、vLLM 和 SGLang 等推理 / 服务框架；
仓库本身带有自定义解码逻辑（标有 glmasr、custom_code 标签），说明其前处理 / 后处理包含了专门针对 ASR 的 pipeline，而不仅仅是一个“裸的声学模型”。

从这些信息可以推断，如果你已经有基于 Transformers 或 vLLM 的部署经验，把 GLM-ASR-Nano-2512 集成进自己的服务栈，会比从头接一个完全异构的 ASR 系统要简单很多。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码