感谢支持
我们一直在努力

Ubuntu下的ocr文字识别(pdf、tif等)

平时使用扫描件或者pdf查看文档,但是在ipad上当文字比较小的时候不能有效放大,过着每次阅读需要移动屏幕,十分不方便,为此想将pdf或者图片中的文字截取出来,可以有效处理,当然需要ocr技术了,现在我们就来考虑和解决这个问题。


1、技术准备:


os为 linux mint 13(基于Ubuntu 12.04的)


ocr软件:tesseract,执行文件为tesseract


 gocr


pdf处理软件:pdftoxxx,比如pdftotext等


tiff处理如案件:比如tiff2pdf等等


2、安装软件


sudo apt-get install gocr


sudo apt-get install tesseract-ocr


sudo apt-get install libtiff-tools


对于tesseract需要设置语言包,可以在观望上下载具体中文语言包,比如简体的就是chi_sim,然后加入到一个环境变量中


mv chi_sim.traineddata /usr/local/share/tessdata 


export TESSDATA_PREFIX=/usr/local/share/ 


3、tif文件转文字 tif–>text


直接使用tesseract即可,如下:


tesseract a.tif a.txt -l chi_sim


以上支持多页单文件tif


4、pdf文件转文字 pdf–>text


如果pdf本来就是文字格式的,那么很简单,直接转换即可


pdftotext a.pdf a.txt


如果pdf内部内容是图片,则无法通过以上方法去的内容,首相将pdf转换成为ppm,然后从ppm装换为文字:pdf–>多个ppm–>多个txt


pdf2ppm a.pdf a


产生a1.ppm,a2.ppm…..


然后通过tesseract转换


tesseract a1.tif a1.txt -l chi_sim

赞(0) 打赏
转载请注明出处:服务器评测 » Ubuntu下的ocr文字识别(pdf、tif等)
分享到: 更多 (0)

听说打赏我的人,都进福布斯排行榜啦!

支付宝扫一扫打赏

微信扫一扫打赏