GLM-ASR-2512

Name: GLM-ASR-2512
Availability: InStock
Author: 智谱AI

Release date: 2025-12-10569

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

No data

Chinese support

Supported

Reasoning ability

GLM-ASR-2512 is an AI model published by 智谱AI, released on 2025-12-10, with 0.0B parameters, under the 不开源 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GLM-ASR-2512

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

No data

Max output length

No data

Model type

No data

Release date

2025-12-10

Model file size

No data

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

No data

GLM-ASR-2512

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

No live demo

GLM-ASR-2512

Official resources

Paper

GLM-ASR-2512 - 智谱AI开放文档

DataLearnerAI blog

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

GLM-ASR-2512

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Audio	0.06 元 / 分钟	--

GLM-ASR-2512

Benchmark Results

No benchmark data to show.

GLM-ASR-2512

Publisher

智谱AI

View publisher details

GLM-ASR-2512

Model Overview

智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型：闭源云端模型 GLM-ASR（具体版本为 GLM-ASR-2512）与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力，后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。

GLM-ASR（闭源）：面向生产场景的在线语音识别模型

模型定位

GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型，支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”，适用于会议、客服、教学、多说话人交流等实际业务场景，而不是仅面对干净语音的实验室条件。

主要特点

上下文理解能力增强：在连续语音中，能够根据前后语境生成更自然、连贯的文本，而不只是逐字式转写。
噪声鲁棒性强：即便存在机械噪声、环境噪音、风噪、混响等复杂因素，仍能保持较稳定的识别质量。
多语种与方言适配：除普通话与英语外，还支持多种中国方言，覆盖从东北官话到西南官话等多个地域变体，适应国内复杂语言环境。
字符错误率 CER 0.0717：在多场景测试中的整体表现达到 0.0717 的 CER，属于云端 ASR 服务中的较高水准。

输入与输出

输入：音频文件（wav/mp3），支持直接上传文件或 Base64 方式提交。
输出：结构化、有标点的自然语言文本。

音频时长上限为 30 秒（同步接口），更长内容通常以分段方式处理。

API 调用与参数

GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK（Python、Java 等），关键参数包括：

model：glm-asr-2512
stream：是否采用流式分段返回
prompt：连续识别时可提供之前转写片段作为上下文
hotwords：用于强化特定行业词汇和专有名词
request_id / user_id：便于业务侧跟踪、审计与风控

这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。

适用场景

GLM-ASR 的设计面向广泛而真实的使用环境，包括：

企业会议记录：连续多轮、多人交互的长语音内容转写
客户服务与质检：自动转录客服通话并用于情绪分析与业务分类
教学与培训记录：课堂、讲座录音转写
视频字幕生成：直播、录播视频自动生成文本字幕
车载语音与智能家居：适应自然口音差异的语音指令识别

定价与并发能力

价格：0.06 元 / 分钟音频
并发限制：按用户等级分级管理（例如基础账户 5 并发、高等级账户可达 20 并发）

这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景，也方便成本估算。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

Modality

Input

Output

Audio

0.06 元 / 分钟

GLM-ASR（闭源）：面向生产场景的在线语音识别模型

模型定位

主要特点

上下文理解能力增强：在连续语音中，能够根据前后语境生成更自然、连贯的文本，而不只是逐字式转写。

噪声鲁棒性强：即便存在机械噪声、环境噪音、风噪、混响等复杂因素，仍能保持较稳定的识别质量。

多语种与方言适配：除普通话与英语外，还支持多种中国方言，覆盖从东北官话到西南官话等多个地域变体，适应国内复杂语言环境。

字符错误率 CER 0.0717：在多场景测试中的整体表现达到 0.0717 的 CER，属于云端 ASR 服务中的较高水准。

输入与输出

输入：音频文件（wav/mp3），支持直接上传文件或 Base64 方式提交。

输出：结构化、有标点的自然语言文本。

音频时长上限为 30 秒（同步接口），更长内容通常以分段方式处理。

API 调用与参数

GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK（Python、Java 等），关键参数包括：

model：glm-asr-2512

stream：是否采用流式分段返回

prompt：连续识别时可提供之前转写片段作为上下文

hotwords：用于强化特定行业词汇和专有名词

request_id / user_id：便于业务侧跟踪、审计与风控

这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。

适用场景

GLM-ASR 的设计面向广泛而真实的使用环境，包括：

企业会议记录：连续多轮、多人交互的长语音内容转写

客户服务与质检：自动转录客服通话并用于情绪分析与业务分类

教学与培训记录：课堂、讲座录音转写

视频字幕生成：直播、录播视频自动生成文本字幕

车载语音与智能家居：适应自然口音差异的语音指令识别

定价与并发能力

价格：0.06 元 / 分钟音频

并发限制：按用户等级分级管理（例如基础账户 5 并发、高等级账户可达 20 并发）

这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景，也方便成本估算。