OCRmyPDF是一个开源命令行工具,可以为扫描的PDF文件添加OCR文字层,让原先只读的文件可以被搜索或复制粘贴。OCRmyPDF支持多种语言,可以通过简单的命令行参数进行配置。
OCRmyPDF的主要功能包括:
• 从普通的PDF文件生成可搜索的PDF/A文件。
• 在图像下方准确放置OCR文字,方便复制粘贴。
• 保持嵌入图像的原始分辨率。
• 尽可能地以无损操作插入OCR信息,不干扰其他内容。
• 优化PDF图像,生成的文件比输入文件小。
• 根据需要,在执行OCR之前对图像进行去倾斜和/或清理。
• 验证输入和输出文件。
• 利用所有可用的CPU核心分配工作。
• 能够处理包含数千页的文件。
OCRmyPDF支持多种操作系统。
Linux (Debian/Ubuntu)
apt install ocrmypdf
macOS (Homebrew)
brew install ocrmypdf
Windows
可以通过Chocolatey包管理器安装:
choco install python3
choco install --pre tesseract
choco install ghostscript
pip install ocrmypdf
安装后需要下载相应语言包,中文简体语言包可通过以下命令安装:
apt-get install tesseract-ocr-chi-sim # Debian/Ubuntu
基本命令格式:
ocrmypdf [选项] 输入文件 输出文件
常用操作示例:
1、添加OCR层并转换为PDF/A:
ocrmypdf input.pdf output.pdf
2、处理图像文件为PDF:
ocrmypdf input.jpg output.pdf
3、直接修改原文件(仅在成功时保存):
ocrmypdf myfile.pdf myfile.pdf
4、识别非英语文档(法语示例):
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
5、处理多语言混合文档:
ocrmypdf -l eng+fra Bilingual.pdf Bilingual.pdf
6、纠正倾斜页面:
ocrmypdf --deskew input.pdf output.pdf
7、中文文档处理:
ocrmypdf -l chi_sim input.pdf output.pdf
OCRmyPDF基于Python开发,需要以下依赖:
• Python 3.8+
• Tesseract OCR 4.1.1+
• Ghostscript 9.50+
OCRmyPDF首先对PDF进行预处理,包括图像提取、去噪和纠偏,然后使用Tesseract进行OCR识别,最后将识别结果以文本层形式嵌入PDF中。