JAVA、PHP、前端、APP、网站开发 - 开发技术学习

开发技术学习 » 服务器 » tesseract使用过程一些技巧

tesseract使用过程一些技巧

此文被围观1999日期: 2017-05-13 分类 : 服务器  标签:  ··

使用: tesseract test.jpg -l  eng
Tesseract是图盲,默认情况下只能看得懂未压缩的TIFF图像,如果直接用tesseract处理其它格式的图片,会报错如下:
name_to_image_type:Error:Unrecognized image type:test.jpg
IMAGE::read_header:Error:Can't read this image type:test.jpg
tesseract:Error:Read of file failed:test.jpg

所以我们需要用ImageMagick来转换图片格式。
安装ImageMagick:
sudo apt-get install imagemagick

使用imagemagick转换图片格式:
convert -compress none -depth 8 -alpha off  test.jpg  test.tif

使用tesseract,结果保存在out.txt中
tesseract test.tif out

问题:如何让tesseract只识别字母或者数字?
编辑:sudo vi /usr/share/tesseract-ocr/tessdata/configs/digits
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz0123456789
执行:
tesseract 1.tif out nobatch digits

站点声明:部分内容源自互联网,为传播信息之用,如有侵权,请联系我们删除。

© Copyright 2011-2024 www.kfju.com. All Rights Reserved.
超级字帖 版权所有。蜀ICP备12031064号