DE

DeepSeek-OCR 2

多模态大模型OCR大模型DeepSeek OCRDeepSeek OCR 2

DeepSeek-OCR 2

发布时间: 2026-01-28更新于: 2026-06-14 23:13:18.699568

在线体验GitHub Hugging Face Compare

模型参数

3.5亿

上下文长度

32K

中文支持

支持

推理能力

DeepSeek-OCR 2 是由 DeepSeek-AI 发布的 AI 模型，发布时间为 2026-01-28，定位为多模态大模型，参数规模约为 3.5亿，上下文长度为 32K，模型文件大小约 7GB，采用 DEEPSEEK LICENSE AGREEMENT 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

DeepSeek-OCR 2

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

8K tokens

模型类型

多模态大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-01-28

模型文件大小

7GB

MoE架构

是

总参数 / 激活参数

3.5亿 / 不涉及

知识截止

暂无数据

DeepSeek-OCR 2

开源和体验地址

代码开源状态

DEEPSEEK LICENSE AGREEMENT

预训练权重开源

DEEPSEEK LICENSE AGREEMENT- 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-OCR-2

Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

在线体验

暂无在线体验地址

DeepSeek-OCR 2

官方介绍与博客

官方论文

DeepSeek-OCR 2: Visual Causal Flow

DataLearnerAI博客

暂无介绍博客

DeepSeek-OCR 2

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

DeepSeek-OCR 2

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

DeepSeek-OCR 2

发布机构

DeepSeek-AI

查看发布机构详情

DeepSeek-OCR 2

模型解读

#### 1. DeepSeek-OCR 2 简介和核心特点
DeepSeek-OCR 2 是由 DeepSeek-AI 于 2026 年 1 月发布的开源多模态 OCR 模型。作为 DeepSeek-OCR 系列的升级版本，该模型的核心突破在于引入了“视觉因果流”（Visual Causal Flow）机制。旨在解决传统视觉语言模型（VLMs）在处理图像时仅能按照固定的光栅扫描顺序（Raster-Scan，即从左到右、从上到下）处理视觉 Token 的局限性。

其核心目标是赋予模型类似人类的“因果推理”能力，使其能够根据图像的语义内容动态地重新排列视觉 Token 的处理顺序，从而更准确地理解复杂排版的文档、图表和密集文本。

#### 2. 架构与技术规格
- **模型架构**: 采用了全新的 DeepEncoder V2 架构。该架构包含两个级联的 1D 因果推理结构，替代了传统的 CLIP 或 SigLIP 编码器，采用 LLM 风格的架构设计。
- **视觉 Tokenizer**: 继承自前代模型，使用基于 80M 参数的 SAM（Segment Anything Model）主干网络，辅以卷积层。
- **分辨率与 Token 预算**: 采用全局和局部多裁剪策略（Multi-crop Strategy）。全局视图为 1024x1024，局部裁剪为 768x768。每页的视觉 Token 数量动态控制在 256 到 1120 个之间，实现了高效的计算预算。
- **解码器**: 后端连接了 DeepSeek-3B-A500M 语言模型作为解码器。

#### 3. 核心能力与支持模态
- **模态支持**: 支持图像输入（特别是文档、扫描件、图表）和纯文本输出。
- **能力详述**: 模型具备强大的版面分析与文字识别能力。得益于因果注意力机制，DeepSeek-OCR 2 能够理解复杂的文档逻辑结构（如多栏排版、嵌套表格），并按照语义逻辑而非单纯的空间位置输出文本。

#### 4. 性能与基准评测
- **基准测试**: 在 OmniDocBench 基准测试中，DeepSeek-OCR 2 取得了 91.09 的总分，相比前代 DeepSeek-OCR（87.36分）有显著提升，且视觉 Token 预算更低。
- **对比优势**: 在处理密集文本和复杂布局时，其表现优于传统的固定扫描顺序模型，且在计算效率上保持了 DeepSeek 系列一贯的高效特性。

#### 5. 访问方式与许可
- **开源情况**: 模型代码及权重已在 GitHub 和 Hugging Face 平台完全开源。
- **许可协议**: 遵循 DeepSeek License Agreement。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码