OCRFeeder是我用过的Linux下OCR软件中中文识别较好的一个。它基于tesseract,人机界面友好可惜的是tesseract发展好像很慢。
先安装ocrfeeder,方法很简单仓库里就有0.7.11版,OCR引擎选择上有大改进这个后面说。
装完ocrfeeder再装中文的OCR识别库,随带安装的只有英文的识别库。
我安装的是简体中文识别库,从上图看可选的识别库是很多的。
接下来启动程序
更多详情见请继续阅读下一页的精彩内容: http://www.linuxidc.com/Linux/2014-04/100339p2.htm
添加一个图片开始识别
怎没没结果?看看引擎设置
这个版本添加了语言映射,这样就可以根据你当前会话的语种选取引擎,可是有中文映射呀,检查下tesseract的参数
参数没变啊,原来安装包虽然是chi-sim但语言名是chi_sim修改下OCR引擎定义
再识别,OK!
tesseract对于混排识别还是不理想,只有期待他的改进了。
更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2