DeepSeek-OCR Client 是基于 Electron 的为 DeepSeek-OCR 提供实时光学字符识别(OCR)服务,支持图像拖放上传、即时OCR处理、通过点击区域复制识别文本,最后能将结果以包含 Markdown 图像的ZIP文件形式导出。DeepSeek-OCR Client利用CUDA实现GPU加速以优化性能,主要面向 Windows 10/11 用户,要求安装 Node.js、Python 和支持CUDA的NVIDIA GPU。
DeepSeek-OCR Client围绕用户实际使用场景设计,提供了多项实用功能。
多种图像上传方式:支持拖拽上传图像,也能点击上传区域选择图像,无需复杂操作,轻松添加待处理文件。
实时OCR处理:上传图像后,点击“Run OCR”即可启动识别流程,过程实时可见,能快速获取图像中的文本内容。
支持markdown导出:识别完成后,可点击文本区域复制内容,能将结果导出为包含markdown图像的ZIP压缩包,支持查看文本对应的图像框(View Boxes Image)和原始令牌(View Raw Tokens)。
支持GPU加速:借助CUDA技术,利用NVIDIA GPU提升OCR处理速度,减少等待时间,尤其适合处理大量或高分辨率图像。
参数设置:可选择文档类型(TYPE),设置基础参数(BASE)和尺寸(SIZE),还能对图像进行裁剪(CROP)操作,能适配不同格式和需求的图像。
操作系统:优先支持Windows 10/11,其他操作系统(如Linux、macOS)处于实验阶段。
软件依赖:需安装Node.js 18及以上版本、Python 3.12及以上版本,可通过官方提供的下载链接获取对应安装包。
硬件要求:需要配备支持CUDA的NVIDIA GPU,以确保GPU加速功能正常启用,提升处理效率。
1、解压工具对应的ZIP压缩包 https://github.com/ihatecsv/deepseek-ocr-client/archive/refs/heads/main.zip,得到完整的文件目录。
2、找到并运行“start-client.bat”文件。
3、首次运行时,工具会自动安装所需依赖,这个过程可能需要一定时间,请耐心等待;后续运行时,无需再次安装依赖,启动速度会更快。
4、依赖安装完成后,在应用内点击“Load Model”按钮加载模型。若为首次加载,模型需要下载或初始化,耗时可能较长。
5、加载完模型后,通过拖拽或点击上传区域添加图像,然后点击“Run OCR”按钮开始处理。
若模型能正常加载,但处理图像时出现问题,可关闭应用后重新打开,使用“base”和“size”的默认分辨率尝试。
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU