DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogGLM-OCR
GL

GLM-OCR

GLM-OCR

Release date: 2026-02-03更新于: 2026-02-03 16:43:07132
Live demoGitHubHugging Face
Parameters
9.0亿
Context length
8K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model basics

Reasoning traces
Not supported
Context length
8K tokens
Max output length
4096 tokens
Model type
视觉大模型
Release date
2026-02-03
Model file size
1.8GB
MoE architecture
No
Total params / Active params
9.0B / N/A
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)

Open source & experience

Code license
Apache 2.0
Weights license
Apache 2.0- 免费商用授权
GitHub repo
https://github.com/THUDM/GLM-OCR
Hugging Face
https://huggingface.co/THUDM/glm-ocr
Live demo
No live demo

Official resources

Paper
GLM-OCR: A Lightweight and Effective OCR Model
DataLearnerAI blog
No blog post yet

API details

API speed
5/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text--$0.03
Image$0.03--

Benchmark Scores

No benchmark data to show.

Publisher

智谱AI
智谱AI
View publisher details

Model Overview

1. GLM-OCR 模型简介与核心特点

GLM-OCR 是由智谱 AI 于 2026 年 2 月推出的新一代开源 OCR(光学字符识别)模型。作为 GLM 系列在视觉理解领域的最新成果,该模型专为解决复杂文档解析难题而设计,旨在以极低的参数规模实现工业级的识别精度。GLM-OCR 虽为 0.9B 参数的轻量级模型,但在多项权威基准测试中展现了超越更大规模模型的性能,支持在 vLLM、SGLang 和 Ollama 等主流推理框架中高效部署,特别适合边缘计算和高并发业务场景。

2. 架构与技术规格

  • 模型参数:约 9 亿(0.9B),属于轻量化端侧友好型模型。
  • 技术架构:采用编码器-解码器(Encoder-Decoder)架构。视觉端集成了智谱自研的 CogViT 视觉编码器,结合“版面分析→并行识别”的两阶段技术流程,有效提升了对复杂版面的解析能力。
  • 上下文与吞吐:模型经过深度优化,在处理 PDF 文档时吞吐量可达 1.86 页/秒,兼顾了高精度与高效率。

3. 核心能力与支持模态

  • 模态支持:输入为图像(支持扫描件、截图、PDF页等),输出为结构化文本或 Markdown/LaTeX 格式文本。
  • 核心能力:
    - 通用文本识别:支持多语言混排的高精度识别。
    - 复杂公式解析:能够将手写或印刷的数学公式精确转换为 LaTeX 代码。
    - 表格还原:支持解析包含合并单元格、多级表头的复杂表格,并直接输出 HTML 或 Markdown 格式。
    - 信息抽取 (KIE):能够智能识别票据、卡证及文档中的关键字段并输出 JSON 格式。

4. 性能与基准评测

在权威文档解析评测基准 OmniDocBench V1.5 中,GLM-OCR 取得了 94.6 分的成绩,位列 SOTA(当前最优),在文本、公式、表格及信息抽取四个子任务上的表现均优于多款同类专项模型。

5. 应用场景与限制

  • 推荐用例:学术论文转 LaTeX、财务报表数字化、历史文档扫描件电子化、边缘设备上的实时拍照翻译与解析。
  • 部署优势:由于参数量极小,该模型非常适合在消费级显卡或移动端设备上进行本地化部署,大幅降低了隐私泄露风险和推理成本。

6. 访问方式与许可

GLM-OCR 的权重及推理代码已在 GitHub 和 Hugging Face 平台开源。智谱官方开放平台亦提供 API 调用服务。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码