感谢支持
我们一直在努力

Ubuntu下安装使用 tesseract-ocr

tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我在Ubuntu下安装步骤


其实官方文档上说的很细,下面列出其中的命令,


  1. sudo apt-get install autoconf automake libtool  

  2. sudo apt-get install libpng12-dev  

  3. sudo apt-get install libjpeg62-dev  

  4. sudo apt-get install libtiff4-dev  

  5. sudo apt-get install zlib1g-dev  


注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,


  1. sudo apt-get install libleptonica-dev  



下载源文件包解压(目前是3.0),进入目录


  1. ./runautoconf  

  2. ./configure  

  3. make  

  4. sudo make install  


下载语言数据包解压:你可以在这找到更多的语言包


  1. gzip -d eng.traineddata.gz  


移动到数据包安装目录下,默认为 /usr/local/share/tessdata


  1. mv eng.traineddata /usr/local/share/tessdata  

  2.   

  3. export TESSDATA_PREFIX=/usr/local/share/  



安装图片格式转换工具,因为tesseract只识别tif格式的图片。


  1. apt-get install imagemagick  


你可以使用下面的命令转换图片


  1. convert a.jpg a.tif  


好了,测试一下吧


  1. tesseract <image> <outputbasename> [-l lang] [configs]  

  2.   

  3. tesseract a.tif a  
默认为英语,如果你要识别其它语言请使用-l 参数指定,如


  1. tesseract a.tif a -l chi_sim  

  2.   

  3. cat a.txt  

你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,

对于Java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,


如果你遇到 lib **.so 找不到请运行


  1. sudo ldconfig  

赞(0) 打赏
转载请注明出处:服务器评测 » Ubuntu下安装使用 tesseract-ocr
分享到: 更多 (0)

听说打赏我的人,都进福布斯排行榜啦!

支付宝扫一扫打赏

微信扫一扫打赏