目录
4.解决问题 上面已经解决了 下面只是记录原因以及解决过程?方便自己反思
整理后的文档
apt install ocrmypdf
apt-get install tesseract-ocr-chi-sim
#ocemytest 需要转换的文件 转换后的文件
ocemytest inout.pdf output.pdf
#指定中文(ocr识别的内容,否则中文识别后是英文字母)
ocemytest -l chi_sim inout.pdf output.pdf
#指定中文和英文 多种就一直"+"
ocemytest -l eng+chi_sim inout.pdf output.pdf
查找tesseract目录
king@ubuntu22:~$ sudo find / -name tessdata
/usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:~$ cd /usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:/usr/share/tesseract-ocr/5/tessdata$ ls
chi_sim.traineddata ?configs ?eng.traineddata ?osd.traineddata ?pdf.ttf ?tessconfigs
查看后发现有中文字体
懵逼了
百度一下 ,立马找到答案了
下面是正确答案:
原文;链接:https://www.cnblogs.com/syxy/p/15381175.html
在deepin中ocrmypdf指定语言进行ocr识别时,出现OCR engine does not have language data for the following requested languages
有2种可能,一种是你没安装语言数据包,另外一种是输错了
既然是没安装语言数据包,直接安装就好。
以安装简体中文语言数据包为例
打开终端,输入
sudo apt-get install tesseract-ocr-chi-sim
回车安装即可
还是以安装简体中文语言数据包为例
你可能输入的是以下的命令
ocrmypdf -l chi-sim test.pdf test-ocr.pdf
你安装的时候语言确实是?chi-sim?,不过这是针对?tesseract-ocr?而言的
ocrmypdf 语言数据包的参数的格式是?chi_sim
注意是下划线 _ ,并非横杠 -
正确的命令应该是
ocrmypdf -l chi_sim test.pdf test-ocr.pdf
其他带横杠的语言数据包以此类推