UN

Unlimited-OCR

视觉大模型OCR大模型

Unlimited-OCR

发布时间: 2026-06-2213
模型参数
33.4亿
上下文长度
32K
中文支持
支持
推理能力

Unlimited-OCR 是百度于 2026 年 6 月 22 日开源的 OCR / 文档解析视觉语言模型,采用 R-SWA 注意力机制支持 32K 长输出和多页文档一次性解析,模型约 3B 总参数、0.5B 激活参数,MIT 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Unlimited-OCR

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
32K tokens
最大输出长度
32K tokens
模型类型
视觉大模型
输入/输出模态
文本、图像 → 文本
发布时间
2026-06-22
模型文件大小
6.67 GB BF16 safetensors
MoE架构
总参数 / 激活参数
33.4亿 / 5亿
知识截止
暂无数据
Unlimited-OCR

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
在线体验
暂无在线体验地址
Unlimited-OCR

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
Unlimited-OCR

API接口信息

接口速度
4/5
暂无公开的 API 定价信息。
Unlimited-OCR

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Unlimited-OCR

发布机构

Unlimited-OCR

模型解读

Unlimited-OCR 是百度在 2026 年 6 月 22 日发布并开源的 OCR / 文档解析视觉语言模型,官方项目标题为 Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing。项目 README 显示,模型支持通过 Hugging Face Transformers 加载 baidu/Unlimited-OCR,可处理单张图片、多页图片以及由 PDF 转换得到的页面图片,输出文档解析文本。


架构与规格

技术报告说明,Unlimited-OCR 以 DeepSeek-OCR 为 baseline,保留高压缩率的 DeepEncoder,并将解码端注意力替换为 Reference Sliding Window Attention(R-SWA)。R-SWA 让每个输出 token 关注完整视觉 token 与 prompt,同时只关注最近窗口内的输出 token,从而在长输出推理时保持近似恒定的 KV cache,降低显存和注意力计算开销。报告表格将模型标为 3B-A0.5B,HF safetensors 元数据记录 BF16 参数量约 33.36 亿;本条目按总参数 33.36 亿、激活参数 5 亿收录。

HF 模型配置显示,模型架构为 UnlimitedOCRForCausalLMmodel_typeunlimited-ocr,上下文长度为 32768,滑动窗口为 128,视觉侧 image_size 为 1024,权重格式为 BF16 safetensors,文件索引总大小约 6.67 GB。官方 README 中 Transformers 与 SGLang 示例均使用 max_length=32768--context-length 32768


能力与适用场景

Unlimited-OCR 面向长篇文档、论文、书籍、多页 PDF 和复杂版面 OCR,支持图像加文本 prompt 输入并生成文本解析结果。官方示例包含单图文档解析、多页图片解析和 PDF 转图片后的多页解析;技术报告称该方法可以在标准 32K 最大长度下对几十页文档进行单次前向解析。由于官方模型卡未提供托管 API 或在线 demo,本次只记录开源权重和本地/自部署推理入口,API 价格暂留空。


评测表现

官方技术报告以 OmniDocBench 作为主要文档 OCR 评测。报告表 1 显示,Unlimited-OCR 在 OmniDocBench v1.5 上 Overall 为 93.23,文本 Edit Distance 为 0.038,公式 CDM 为 92.61,表格 TEDS 为 90.93,阅读顺序 Edit Distance 为 0.045;在 OmniDocBench v1.6 上 Overall 为 93.92,公式 CDM 为 95.79,表格 TEDS-S 为 93.32。报告还说明,相比 DeepSeek-OCR baseline,v1.5 overall 提升 6.22,文本编辑距离下降 0.035。DataLearner 当前 benchmark 目录尚未收录 OmniDocBench v1.5/v1.6,因此本次不写入结构化 benchmark 成绩,避免映射到不匹配的 DocVQA 等评测项。


访问与许可

模型权重发布在 Hugging Face,代码与技术报告发布在 GitHub。GitHub 与 HF 模型卡均标注 MIT License,因此本条目的代码、权重与商用许可均按 MIT License 收录。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码