加载中...
加载中...
GLM-OCR
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Text | -- | $0.03 |
| Image | $0.03 | -- |
GLM-OCR 是由智谱 AI 于 2026 年 2 月推出的新一代开源 OCR(光学字符识别)模型。作为 GLM 系列在视觉理解领域的最新成果,该模型专为解决复杂文档解析难题而设计,旨在以极低的参数规模实现工业级的识别精度。GLM-OCR 虽为 0.9B 参数的轻量级模型,但在多项权威基准测试中展现了超越更大规模模型的性能,支持在 vLLM、SGLang 和 Ollama 等主流推理框架中高效部署,特别适合边缘计算和高并发业务场景。
在权威文档解析评测基准 OmniDocBench V1.5 中,GLM-OCR 取得了 94.6 分的成绩,位列 SOTA(当前最优),在文本、公式、表格及信息抽取四个子任务上的表现均优于多款同类专项模型。
GLM-OCR 的权重及推理代码已在 GitHub 和 Hugging Face 平台开源。智谱官方开放平台亦提供 API 调用服务。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
