GL

GLM-OCR

视觉大模型OCR大模型GLM-OCRGLM-OCR

GLM-OCR

发布时间: 2026-02-03更新于: 2026-06-14 23:13:18.967909

在线体验GitHub Hugging Face Compare

模型参数

9亿

上下文长度

8K

中文支持

支持

推理能力

GLM-OCR 是由智谱AI 发布的 AI 模型，发布时间为 2026-02-03，定位为视觉大模型，参数规模约为 9亿，上下文长度为 8K，模型文件大小约 1.8GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-OCR

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

4K tokens

模型类型

视觉大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-02-03

模型文件大小

1.8GB

MoE架构

否

总参数 / 激活参数

9亿 / 不涉及

知识截止

暂无数据

GLM-OCR

开源和体验地址

代码开源状态

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/THUDM/GLM-OCR

Hugging Face

https://huggingface.co/THUDM/glm-ocr

在线体验

暂无在线体验地址

GLM-OCR

官方介绍与博客

官方论文

GLM-OCR: A Lightweight and Effective OCR Model

DataLearnerAI博客

暂无介绍博客

GLM-OCR

API接口信息

接口速度

5/5

暂无公开的 API 定价信息。

GLM-OCR

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GLM-OCR

发布机构

智谱AI

查看发布机构详情

GLM-OCR

模型解读

1. GLM-OCR 模型简介与核心特点

GLM-OCR 是由智谱 AI 于 2026 年 2 月推出的新一代开源 OCR（光学字符识别）模型。作为 GLM 系列在视觉理解领域的最新成果，该模型专为解决复杂文档解析难题而设计，旨在以极低的参数规模实现工业级的识别精度。GLM-OCR 虽为 0.9B 参数的轻量级模型，但在多项权威基准测试中展现了超越更大规模模型的性能，支持在 vLLM、SGLang 和 Ollama 等主流推理框架中高效部署，特别适合边缘计算和高并发业务场景。

2. 架构与技术规格

模型参数：约 9 亿（0.9B），属于轻量化端侧友好型模型。
技术架构：采用编码器-解码器（Encoder-Decoder）架构。视觉端集成了智谱自研的 CogViT 视觉编码器，结合“版面分析→并行识别”的两阶段技术流程，有效提升了对复杂版面的解析能力。
上下文与吞吐：模型经过深度优化，在处理 PDF 文档时吞吐量可达 1.86 页/秒，兼顾了高精度与高效率。

3. 核心能力与支持模态

模态支持：输入为图像（支持扫描件、截图、PDF页等），输出为结构化文本或 Markdown/LaTeX 格式文本。
核心能力：
- 通用文本识别：支持多语言混排的高精度识别。
- 复杂公式解析：能够将手写或印刷的数学公式精确转换为 LaTeX 代码。
- 表格还原：支持解析包含合并单元格、多级表头的复杂表格，并直接输出 HTML 或 Markdown 格式。
- 信息抽取 (KIE)：能够智能识别票据、卡证及文档中的关键字段并输出 JSON 格式。

4. 性能与基准评测

在权威文档解析评测基准 OmniDocBench V1.5 中，GLM-OCR 取得了 94.6 分的成绩，位列 SOTA（当前最优），在文本、公式、表格及信息抽取四个子任务上的表现均优于多款同类专项模型。

5. 应用场景与限制

推荐用例：学术论文转 LaTeX、财务报表数字化、历史文档扫描件电子化、边缘设备上的实时拍照翻译与解析。
部署优势：由于参数量极小，该模型非常适合在消费级显卡或移动端设备上进行本地化部署，大幅降低了隐私泄露风险和推理成本。

6. 访问方式与许可

GLM-OCR 的权重及推理代码已在 GitHub 和 Hugging Face 平台开源。智谱官方开放平台亦提供 API 调用服务。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码