GL

GLM-ASR-2512

语音大模型GLM-ASRGLM-ASR 2512

GLM-ASR-2512

发布时间: 2025-12-10更新于: 2026-06-14 23:13:19.221596

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

暂无数据

中文支持

支持

推理能力

GLM-ASR-2512 是由智谱AI 发布的 AI 模型，发布时间为 2025-12-10，定位为语音大模型，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-ASR-2512

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

暂无数据

最大输出长度

暂无数据

模型类型

语音大模型

输入/输出模态

音频 → 文本

发布时间

2025-12-10

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GLM-ASR-2512

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

GLM-ASR-2512

官方介绍与博客

官方论文

GLM-ASR-2512 - 智谱AI开放文档

DataLearnerAI博客

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

GLM-ASR-2512

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

GLM-ASR-2512

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GLM-ASR-2512

发布机构

智谱AI

查看发布机构详情

GLM-ASR-2512

模型解读

智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型：闭源云端模型 GLM-ASR（具体版本为 GLM-ASR-2512）与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力，后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。

GLM-ASR（闭源）：面向生产场景的在线语音识别模型

模型定位

GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型，支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”，适用于会议、客服、教学、多说话人交流等实际业务场景，而不是仅面对干净语音的实验室条件。

主要特点

上下文理解能力增强：在连续语音中，能够根据前后语境生成更自然、连贯的文本，而不只是逐字式转写。
噪声鲁棒性强：即便存在机械噪声、环境噪音、风噪、混响等复杂因素，仍能保持较稳定的识别质量。
多语种与方言适配：除普通话与英语外，还支持多种中国方言，覆盖从东北官话到西南官话等多个地域变体，适应国内复杂语言环境。
字符错误率 CER 0.0717：在多场景测试中的整体表现达到 0.0717 的 CER，属于云端 ASR 服务中的较高水准。

输入与输出

输入：音频文件（wav/mp3），支持直接上传文件或 Base64 方式提交。
输出：结构化、有标点的自然语言文本。

音频时长上限为 30 秒（同步接口），更长内容通常以分段方式处理。

API 调用与参数

GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK（Python、Java 等），关键参数包括：

model：glm-asr-2512
stream：是否采用流式分段返回
prompt：连续识别时可提供之前转写片段作为上下文
hotwords：用于强化特定行业词汇和专有名词
request_id / user_id：便于业务侧跟踪、审计与风控

这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。

适用场景

GLM-ASR 的设计面向广泛而真实的使用环境，包括：

企业会议记录：连续多轮、多人交互的长语音内容转写
客户服务与质检：自动转录客服通话并用于情绪分析与业务分类
教学与培训记录：课堂、讲座录音转写
视频字幕生成：直播、录播视频自动生成文本字幕
车载语音与智能家居：适应自然口音差异的语音指令识别

定价与并发能力

价格：0.06 元 / 分钟音频
并发限制：按用户等级分级管理（例如基础账户 5 并发、高等级账户可达 20 并发）

这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景，也方便成本估算。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码