基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR StudioDeepSeek-OCR Studio 是基于DeepSeek-OCR模型的文档解析工具,能提供高精度的智能OCR识别能力,能够高效处理PDF文档和图像。DeepSeek-OCR Studio支持多格式文档解析,可智能识别文档布局结构,支持中英文等多语言文本识别,具备专业的表格识别、图表数据提取能力,能对CAD图、流程图等专业领域图纸进行语义识别,支持数据分析可视化图表的逆向解析,最终将PDF内容转换为结构化的Markdown格式,实现文档内容的深度理解与结构化输出。
作为 OCR 2.0 时代的典型代表模型,DeepSeek-OCR 不仅继承传统 OCR 的文本识别能力,还在“文档理解”层面完成全方位升级,它融合视觉语言模型(VLM)的多模态感知能力,能同时“看懂文字”“理解布局”“分析图表”,实现从“看见文字”到“理解内容”的跨越。
多格式文档解析:支持上传并解析 PDF、图片等多种格式的文档。
智能 OCR 识别:基于 DeepSeek-OCR 模型打造,具备高精度文本识别能力,能准确提取文档中的文字信息。
版式分析:可智能识别文档的版式结构,精准提取内容布局。
国际化支持:支持中文、英文等多种语言的文本识别。
表格与图表解析:拥有专业的表格识别和图表数据提取功能,能快速获取表格和图表中的关键数据。
专业领域图纸识别:支持多个领域专业图纸的语义识别,如 CAD 图纸、流程图、装饰图纸等。
数据可视化:支持对数据分析可视化图表进行反向解析,助力用户深入挖掘图表背后的数据信息。
Markdown 转换:能将 PDF 内容转换为结构化的 Markdown 格式,方便后续编辑和使用。
PDF 文档解析:支持解析包含图片、表格等复杂内容的 PDF 文档,准确提取其中的文字、表格、图片等信息。
专业领域图纸识别:以建筑平面图为例,能识别图纸的整体形状(如矩形)、尺寸(以毫米为单位,标注出不同区域的长度,如 3400mm、2900mm 等)以及房间和空间(如卧室、客厅、厨房、卫生间等,通过中文标签标注在相应区域)。
数据可视化图表反向解析:以 RLHF 相关论文、RLAAF/AI 反馈相关论文、可验证/智能体 RL 相关论文的数量统计图表为例,能解析出不同年份各类论文的数量。
操作系统:需在 Linux 系统上运行。
GPU 要求:GPU 显存需≥7GB,处理大幅图片或多页 PDF 时,推荐 16-24GB 显存。
兼容性说明:目前 RTX 50 系列 GPU 不兼容,建议使用其他型号 GPU。
Python 版本:支持 3.10-3.12 版本,推荐使用 3.10 或 3.11 版本。
CUDA 版本:需为 11.8 或 12.1/12.2,且必须与 GPU 驱动匹配。
PyTorch:需安装与 CUDA 匹配的预编译版本。
执行以下脚本,完成一键启动:
# 安装模型权重和环境依赖
bash install.sh
# 启动服务
bash start.sh
步骤一:下载模型权重
首先需要下载 DeepSeek-OCR 模型权重,可从 Hugging Face 或 ModelScope 获取。以下以 ModelScope 为例:
pip install modelscope
mkdir ./deepseek-ocr
modelscope download --model deepseek-ai/DeepSeek-OCR --local_dir ./deepseek-ocr
步骤二:配置运行环境
下载官方项目包:
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
创建虚拟环境,用于安装模型运行依赖:
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
安装 Jupyter 及对应内核:
conda install jupyterlab
conda install ipykernel
python -m ipykernel install --user --name dsocr --display-name "Python (dsocr)"
安装 PyTorch 相关组件:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
安装 DeepSeek-OCR 官方推荐的 vLLM 版本(v0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl):
pip install ./packages/vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
安装项目基础依赖:
cd ./DeepSeek-OCR/
pip install -r requirements.txt
安装过程中若出现依赖冲突,可忽略,不会影响实际运行。
安装 flash-attn 加速库:
pip install flash-attn==2.7.3 --no-build-isolation
在项目根目录创建 .env 文件,输入模型运行地址,示例如下:
MODEL_PATH=/root/autodl-tmp/deepseek-ocr
步骤三:启动后端服务
uvicorn main:app --host 0.0.0.0 --port 8002 --reload
步骤四:启动前端服务 安装前端依赖:
npm install
启动前端:
npm run dev
启动成功后,在浏览器中访问前端地址,就能使用该工具。
AI学术写作助手:学术论文润色和语言优化工具
Gemini对话与提示管理扩展工具 Gemini Voyager
AI驱动的股票研究平台 Multi-Agent Investment Research Platform
AI驱动的加密货币自动化交易系统 open-nof1.ai
基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent
XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training
基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio
AI-Trader:让多个AI模型在纳斯达克100股票市场中进行完全自主的零人工干预的竞争性交易
辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI
AI 编码代理工具 deer-code,帮助开发者学习和构建智能的编码助手