科学工具
科学工具让世界更美好
让世界更美好

基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio

DeepSeek-OCR Studio 是基于DeepSeek-OCR模型的文档解析工具,能提供高精度的智能OCR识别能力,能够高效处理PDF文档和图像。DeepSeek-OCR Studio支持多格式文档解析,可智能识别文档布局结构,支持中英文等多语言文本识别,具备专业的表格识别、图表数据提取能力,能对CAD图、流程图等专业领域图纸进行语义识别,支持数据分析可视化图表的逆向解析,最终将PDF内容转换为结构化的Markdown格式,实现文档内容的深度理解与结构化输出。

作为 OCR 2.0 时代的典型代表模型,DeepSeek-OCR 不仅继承传统 OCR 的文本识别能力,还在“文档理解”层面完成全方位升级,它融合视觉语言模型(VLM)的多模态感知能力,能同时“看懂文字”“理解布局”“分析图表”,实现从“看见文字”到“理解内容”的跨越。

多格式文档解析:支持上传并解析 PDF、图片等多种格式的文档。

智能 OCR 识别:基于 DeepSeek-OCR 模型打造,具备高精度文本识别能力,能准确提取文档中的文字信息。

版式分析:可智能识别文档的版式结构,精准提取内容布局。

国际化支持:支持中文、英文等多种语言的文本识别。

表格与图表解析:拥有专业的表格识别和图表数据提取功能,能快速获取表格和图表中的关键数据。

专业领域图纸识别:支持多个领域专业图纸的语义识别,如 CAD 图纸、流程图、装饰图纸等。

数据可视化:支持对数据分析可视化图表进行反向解析,助力用户深入挖掘图表背后的数据信息。

Markdown 转换:能将 PDF 内容转换为结构化的 Markdown 格式,方便后续编辑和使用。

PDF 文档解析:支持解析包含图片、表格等复杂内容的 PDF 文档,准确提取其中的文字、表格、图片等信息。

专业领域图纸识别:以建筑平面图为例,能识别图纸的整体形状(如矩形)、尺寸(以毫米为单位,标注出不同区域的长度,如 3400mm、2900mm 等)以及房间和空间(如卧室、客厅、厨房、卫生间等,通过中文标签标注在相应区域)。

数据可视化图表反向解析:以 RLHF 相关论文、RLAAF/AI 反馈相关论文、可验证/智能体 RL 相关论文的数量统计图表为例,能解析出不同年份各类论文的数量。

DeepSeek-OCR Studio 安装使用

系统要求

操作系统:需在 Linux 系统上运行。

GPU 要求:GPU 显存需≥7GB,处理大幅图片或多页 PDF 时,推荐 16-24GB 显存。

兼容性说明:目前 RTX 50 系列 GPU 不兼容,建议使用其他型号 GPU。

Python 版本:支持 3.10-3.12 版本,推荐使用 3.10 或 3.11 版本。

CUDA 版本:需为 11.8 或 12.1/12.2,且必须与 GPU 驱动匹配。

PyTorch:需安装与 CUDA 匹配的预编译版本。

快速启动

方法一:一键脚本启动(推荐)

执行以下脚本,完成一键启动:

# 安装模型权重和环境依赖
bash install.sh
# 启动服务
bash start.sh

方法二:手动安装与运行

步骤一:下载模型权重

首先需要下载 DeepSeek-OCR 模型权重,可从 Hugging Face 或 ModelScope 获取。以下以 ModelScope 为例:

pip install modelscope
mkdir ./deepseek-ocr
modelscope download --model deepseek-ai/DeepSeek-OCR --local_dir ./deepseek-ocr

步骤二:配置运行环境

下载官方项目包:

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

创建虚拟环境,用于安装模型运行依赖:

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

安装 Jupyter 及对应内核:

conda install jupyterlab
conda install ipykernel
python -m ipykernel install --user --name dsocr --display-name "Python (dsocr)"

安装 PyTorch 相关组件:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

安装 DeepSeek-OCR 官方推荐的 vLLM 版本(v0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl):

pip install ./packages/vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

安装项目基础依赖:

cd ./DeepSeek-OCR/
pip install -r requirements.txt

安装过程中若出现依赖冲突,可忽略,不会影响实际运行。

安装 flash-attn 加速库:

pip install flash-attn==2.7.3 --no-build-isolation

在项目根目录创建 .env 文件,输入模型运行地址,示例如下:

MODEL_PATH=/root/autodl-tmp/deepseek-ocr

步骤三:启动后端服务

uvicorn main:app --host 0.0.0.0 --port 8002 --reload

步骤四:启动前端服务 安装前端依赖:

npm install

启动前端:

npm run dev

启动成功后,在浏览器中访问前端地址,就能使用该工具。