科学工具
科学工具让世界更美好
让世界更美好

OCRmyPDF 命令行工具将扫描的 PDF 文件转换为可搜索、可复制的文档格式OCRmyPDF 命令行工具将扫描的 PDF 文件转换为可搜索、可复制的文档格式

OCRmyPDF是一个开源命令行工具,可以为扫描的PDF文件添加OCR文字层,让原先只读的文件可以被搜索或复制粘贴。OCRmyPDF支持多种语言,可以通过简单的命令行参数进行配置。

OCRmyPDF的主要功能包括:

• 从普通的PDF文件生成可搜索的PDF/A文件。

• 在图像下方准确放置OCR文字,方便复制粘贴。

• 保持嵌入图像的原始分辨率。

• 尽可能地以无损操作插入OCR信息,不干扰其他内容。

• 优化PDF图像,生成的文件比输入文件小。

• 根据需要,在执行OCR之前对图像进行去倾斜和/或清理。

• 验证输入和输出文件。

• 利用所有可用的CPU核心分配工作。

• 能够处理包含数千页的文件。

安装方法

OCRmyPDF支持多种操作系统。

Linux (Debian/Ubuntu)

apt install ocrmypdf

macOS (Homebrew)

brew install ocrmypdf

Windows

可以通过Chocolatey包管理器安装:

choco install python3
choco install --pre tesseract
choco install ghostscript
pip install ocrmypdf

安装后需要下载相应语言包,中文简体语言包可通过以下命令安装:

apt-get install tesseract-ocr-chi-sim  # Debian/Ubuntu

使用示例

基本命令格式:

ocrmypdf [选项] 输入文件 输出文件

常用操作示例:

1、添加OCR层并转换为PDF/A:

ocrmypdf input.pdf output.pdf

2、处理图像文件为PDF:

ocrmypdf input.jpg output.pdf

3、直接修改原文件(仅在成功时保存):

ocrmypdf myfile.pdf myfile.pdf

4、识别非英语文档(法语示例):

ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

5、处理多语言混合文档:

ocrmypdf -l eng+fra Bilingual.pdf Bilingual.pdf

6、纠正倾斜页面:

ocrmypdf --deskew input.pdf output.pdf

7、中文文档处理:

ocrmypdf -l chi_sim input.pdf output.pdf

安装要求

OCRmyPDF基于Python开发,需要以下依赖:

• Python 3.8+

• Tesseract OCR 4.1.1+

• Ghostscript 9.50+

OCRmyPDF首先对PDF进行预处理,包括图像提取、去噪和纠偏,然后使用Tesseract进行OCR识别,最后将识别结果以文本层形式嵌入PDF中。