UN

Unlimited-OCR

视觉大模型OCR大模型

Unlimited-OCR

发布时间: 2026-06-2213

在线体验GitHub Hugging Face Compare

模型参数

33.4亿

上下文长度

32K

中文支持

支持

推理能力

Unlimited-OCR 是百度于 2026 年 6 月 22 日开源的 OCR / 文档解析视觉语言模型，采用 R-SWA 注意力机制支持 32K 长输出和多页文档一次性解析，模型约 3B 总参数、0.5B 激活参数，MIT 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Unlimited-OCR

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

32K tokens

模型类型

视觉大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-06-22

模型文件大小

6.67 GB BF16 safetensors

MoE架构

是

总参数 / 激活参数

33.4亿 / 5亿

知识截止

暂无数据

Unlimited-OCR

开源和体验地址

代码开源状态

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/baidu/Unlimited-OCR

Hugging Face

https://huggingface.co/baidu/Unlimited-OCR

在线体验

暂无在线体验地址

Unlimited-OCR

官方介绍与博客

官方论文

Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing

DataLearnerAI博客

暂无介绍博客

Unlimited-OCR

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

Unlimited-OCR

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Unlimited-OCR

发布机构

百度

查看发布机构详情

Unlimited-OCR

模型解读

Unlimited-OCR 是百度在 2026 年 6 月 22 日发布并开源的 OCR / 文档解析视觉语言模型，官方项目标题为 Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing。项目 README 显示，模型支持通过 Hugging Face Transformers 加载 baidu/Unlimited-OCR，可处理单张图片、多页图片以及由 PDF 转换得到的页面图片，输出文档解析文本。

架构与规格

技术报告说明，Unlimited-OCR 以 DeepSeek-OCR 为 baseline，保留高压缩率的 DeepEncoder，并将解码端注意力替换为 Reference Sliding Window Attention（R-SWA）。R-SWA 让每个输出 token 关注完整视觉 token 与 prompt，同时只关注最近窗口内的输出 token，从而在长输出推理时保持近似恒定的 KV cache，降低显存和注意力计算开销。报告表格将模型标为 3B-A0.5B，HF safetensors 元数据记录 BF16 参数量约 33.36 亿；本条目按总参数 33.36 亿、激活参数 5 亿收录。

HF 模型配置显示，模型架构为 UnlimitedOCRForCausalLM，model_type 为 unlimited-ocr，上下文长度为 32768，滑动窗口为 128，视觉侧 image_size 为 1024，权重格式为 BF16 safetensors，文件索引总大小约 6.67 GB。官方 README 中 Transformers 与 SGLang 示例均使用 max_length=32768 或 --context-length 32768。

能力与适用场景

Unlimited-OCR 面向长篇文档、论文、书籍、多页 PDF 和复杂版面 OCR，支持图像加文本 prompt 输入并生成文本解析结果。官方示例包含单图文档解析、多页图片解析和 PDF 转图片后的多页解析；技术报告称该方法可以在标准 32K 最大长度下对几十页文档进行单次前向解析。由于官方模型卡未提供托管 API 或在线 demo，本次只记录开源权重和本地/自部署推理入口，API 价格暂留空。

评测表现

官方技术报告以 OmniDocBench 作为主要文档 OCR 评测。报告表 1 显示，Unlimited-OCR 在 OmniDocBench v1.5 上 Overall 为 93.23，文本 Edit Distance 为 0.038，公式 CDM 为 92.61，表格 TEDS 为 90.93，阅读顺序 Edit Distance 为 0.045；在 OmniDocBench v1.6 上 Overall 为 93.92，公式 CDM 为 95.79，表格 TEDS-S 为 93.32。报告还说明，相比 DeepSeek-OCR baseline，v1.5 overall 提升 6.22，文本编辑距离下降 0.035。DataLearner 当前 benchmark 目录尚未收录 OmniDocBench v1.5/v1.6，因此本次不写入结构化 benchmark 成绩，避免映射到不匹配的 DocVQA 等评测项。

访问与许可

模型权重发布在 Hugging Face，代码与技术报告发布在 GitHub。GitHub 与 HF 模型卡均标注 MIT License，因此本条目的代码、权重与商用许可均按 MIT License 收录。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码