科学工具
科学工具让世界更美好
让世界更美好

DeepSeek-OCR 实时光学字符识别服务 DeepSeek-OCR Client

DeepSeek-OCR Client 是基于 Electron 的为 DeepSeek-OCR 提供实时光学字符识别(OCR)服务,支持图像拖放上传、即时OCR处理、通过点击区域复制识别文本,最后能将结果以包含 Markdown 图像的ZIP文件形式导出。DeepSeek-OCR Client利用CUDA实现GPU加速以优化性能,主要面向 Windows 10/11 用户,要求安装 Node.js、Python 和支持CUDA的NVIDIA GPU。

DeepSeek-OCR Client围绕用户实际使用场景设计,提供了多项实用功能。

多种图像上传方式:支持拖拽上传图像,也能点击上传区域选择图像,无需复杂操作,轻松添加待处理文件。

实时OCR处理:上传图像后,点击“Run OCR”即可启动识别流程,过程实时可见,能快速获取图像中的文本内容。

支持markdown导出:识别完成后,可点击文本区域复制内容,能将结果导出为包含markdown图像的ZIP压缩包,支持查看文本对应的图像框(View Boxes Image)和原始令牌(View Raw Tokens)。

支持GPU加速:借助CUDA技术,利用NVIDIA GPU提升OCR处理速度,减少等待时间,尤其适合处理大量或高分辨率图像。

参数设置:可选择文档类型(TYPE),设置基础参数(BASE)和尺寸(SIZE),还能对图像进行裁剪(CROP)操作,能适配不同格式和需求的图像。

DeepSeek-OCR Client 运行环境要求

操作系统:优先支持Windows 10/11,其他操作系统(如Linux、macOS)处于实验阶段。

软件依赖:需安装Node.js 18及以上版本、Python 3.12及以上版本,可通过官方提供的下载链接获取对应安装包。

硬件要求:需要配备支持CUDA的NVIDIA GPU,以确保GPU加速功能正常启用,提升处理效率。

Windows系统安装和使用

1、解压工具对应的ZIP压缩包 https://github.com/ihatecsv/deepseek-ocr-client/archive/refs/heads/main.zip,得到完整的文件目录。

2、找到并运行“start-client.bat”文件。

3、首次运行时,工具会自动安装所需依赖,这个过程可能需要一定时间,请耐心等待;后续运行时,无需再次安装依赖,启动速度会更快。

4、依赖安装完成后,在应用内点击“Load Model”按钮加载模型。若为首次加载,模型需要下载或初始化,耗时可能较长。

5、加载完模型后,通过拖拽或点击上传区域添加图像,然后点击“Run OCR”按钮开始处理。

若模型能正常加载,但处理图像时出现问题,可关闭应用后重新打开,使用“base”和“size”的默认分辨率尝试。