超级厉害 11k+ star OCRmyPDF让你能搜索扫描版PDF文档 unbutu安装教程

发布时间：2024年01月13日

安装直接参考官网文档:GitHub - ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched

整理后的文档

1.安装ocrmypdf

apt install ocrmypdf

2.安装中文字体 ocr识别需要

apt-get install tesseract-ocr-chi-sim

3.识别

#ocemytest 需要转换的文件 转换后的文件

ocemytest inout.pdf output.pdf

#指定中文(ocr识别的内容,否则中文识别后是英文字母)

ocemytest -l chi_sim inout.pdf output.pdf

#指定中文和英文 多种就一直"+"

ocemytest -l eng+chi_sim inout.pdf output.pdf

4.解决问题上面已经解决了下面只是记录原因以及解决过程?方便自己反思

查找tesseract目录

king@ubuntu22:~$ sudo find / -name tessdata
/usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:~$ cd /usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:/usr/share/tesseract-ocr/5/tessdata$ ls
chi_sim.traineddata ?configs ?eng.traineddata ?osd.traineddata ?pdf.ttf ?tessconfigs

查看后发现有中文字体

懵逼了

百度一下 ,立马找到答案了

下面是正确答案:

原文;链接:https://www.cnblogs.com/syxy/p/15381175.html

在deepin中ocrmypdf指定语言进行ocr识别时，出现OCR engine does not have language data for the following requested languages

有2种可能，一种是你没安装语言数据包，另外一种是输错了

第一种情况

既然是没安装语言数据包，直接安装就好。

以安装简体中文语言数据包为例

打开终端，输入

sudo apt-get install tesseract-ocr-chi-sim

回车安装即可

第二种情况

还是以安装简体中文语言数据包为例

你可能输入的是以下的命令

ocrmypdf -l chi-sim test.pdf test-ocr.pdf

你安装的时候语言确实是?chi-sim?，不过这是针对?tesseract-ocr?而言的

ocrmypdf 语言数据包的参数的格式是?chi_sim

注意是下划线 _ ，并非横杠 -

正确的命令应该是

ocrmypdf -l chi_sim test.pdf test-ocr.pdf

其他带横杠的语言数据包以此类推

文章来源:https://blog.csdn.net/wangwenzhe222/article/details/135576430
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！