DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogDeepSeek-OCR 2
DE

DeepSeek-OCR 2

DeepSeek-OCR 2

Release date: 2026-01-2876
Live demoGitHubHugging Face
Parameters
3.5亿
Context length
32K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model basics

Reasoning traces
Not supported
Context length
32K tokens
Max output length
8192 tokens
Model type
多模态大模型
Release date
2026-01-28
Model file size
7GB
MoE architecture
Yes
Total params / Active params
3.5B / No data
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)

Open source & experience

Code license
DEEPSEEK LICENSE AGREEMENT
Weights license
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
GitHub repo
https://github.com/deepseek-ai/DeepSeek-OCR-2
Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
Live demo
No live demo

Official resources

Paper
DeepSeek-OCR 2: Visual Causal Flow
DataLearnerAI blog
No blog post yet

API details

API speed
4/5
No public API pricing yet.

Benchmark Scores

No benchmark data to show.

Publisher

DeepSeek-AI
DeepSeek-AI
View publisher details

Model Overview

#### 1. DeepSeek-OCR 2 简介和核心特点
DeepSeek-OCR 2 是由 DeepSeek-AI 于 2026 年 1 月发布的开源多模态 OCR 模型。作为 DeepSeek-OCR 系列的升级版本,该模型的核心突破在于引入了“视觉因果流”(Visual Causal Flow)机制。旨在解决传统视觉语言模型(VLMs)在处理图像时仅能按照固定的光栅扫描顺序(Raster-Scan,即从左到右、从上到下)处理视觉 Token 的局限性。

其核心目标是赋予模型类似人类的“因果推理”能力,使其能够根据图像的语义内容动态地重新排列视觉 Token 的处理顺序,从而更准确地理解复杂排版的文档、图表和密集文本。

#### 2. 架构与技术规格
- **模型架构**: 采用了全新的 DeepEncoder V2 架构。该架构包含两个级联的 1D 因果推理结构,替代了传统的 CLIP 或 SigLIP 编码器,采用 LLM 风格的架构设计。
- **视觉 Tokenizer**: 继承自前代模型,使用基于 80M 参数的 SAM(Segment Anything Model)主干网络,辅以卷积层。
- **分辨率与 Token 预算**: 采用全局和局部多裁剪策略(Multi-crop Strategy)。全局视图为 1024x1024,局部裁剪为 768x768。每页的视觉 Token 数量动态控制在 256 到 1120 个之间,实现了高效的计算预算。
- **解码器**: 后端连接了 DeepSeek-3B-A500M 语言模型作为解码器。

#### 3. 核心能力与支持模态
- **模态支持**: 支持图像输入(特别是文档、扫描件、图表)和纯文本输出。
- **能力详述**: 模型具备强大的版面分析与文字识别能力。得益于因果注意力机制,DeepSeek-OCR 2 能够理解复杂的文档逻辑结构(如多栏排版、嵌套表格),并按照语义逻辑而非单纯的空间位置输出文本。

#### 4. 性能与基准评测
- **基准测试**: 在 OmniDocBench 基准测试中,DeepSeek-OCR 2 取得了 91.09 的总分,相比前代 DeepSeek-OCR(87.36分)有显著提升,且视觉 Token 预算更低。
- **对比优势**: 在处理密集文本和复杂布局时,其表现优于传统的固定扫描顺序模型,且在计算效率上保持了 DeepSeek 系列一贯的高效特性。

#### 5. 访问方式与许可
- **开源情况**: 模型代码及权重已在 GitHub 和 Hugging Face 平台完全开源。
- **许可协议**: 遵循 DeepSeek License Agreement。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码