DE

DeepSeek-OCR

DeepSeek-OCR

发布时间: 2025-10-201,228
模型参数
30.0
上下文长度
暂无数据
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
暂无数据
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2025-10-20
模型文件大小
6.67 GB
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

DeepSeek-OCR 简介

DeepSeek-OCR 是 DeepSeek-AI 开源的视觉-文本模型,面向 “Contexts Optical Compression” 场景,从 LLM 中心视角研究视觉编码器在 OCR/文档理解中的作用。官方仓库提供 vLLM 与 Transformers 推理脚本,并给出针对图片与 PDF 的批处理与并发示例。

架构与技术要点

模型以视觉输入驱动文本输出(Image→Text),仓库与模型卡显示其作为基于 deepseek_vl_v2 的视觉-语言模型家族成员进行发布。模型卡标注参数规模为 3B(约 30 亿参数),权重以 safetensors 形式提供。README 中给出了多种分辨率/视觉 token 设定(如 512×512/640×640/1024×1024/1280×1280 以及动态分辨率“Gundam”模式),用于在不同精度与吞吐之间权衡。

核心能力与支持模态

官方示例覆盖通用 OCR、版面保持的 Markdown 转写、图表/图形解析以及基础的定位/指代(<|grounding|>, <|ref|> 提示)。推理接口以单/批模式运行,README 示例显示在 A100-40G 上处理 PDF 的并发速率约为 “~2500 tokens/s”。

数据与评测

仓库 README 与模型卡未提供标准化基准(如 OCR SROIE、DocVQA 等)的量化分数,亦未提供训练数据细节。因此本段不作推断。

访问与许可

模型以 MIT 许可开源,权重与代码分别托管于 Hugging Face 与 GitHub。未发现该特定模型的官方在线交互演示页;开发者可直接通过 Transformers 或 vLLM 在本地/服务器侧部署。

来源:GitHub README(安装/推理/分辨率与模式、并发示例)、Hugging Face 模型卡(参数规模、许可、文件大小与初次发布时间)。