Tesseract-OCR
安装
sudo apt install tesseract-ocr tesseract-ocr-eng sudo apt install tesseract-ocr-fra tesseract-ocr-chi-sim
语言包格式为tesseract-ocr-[lang]
,如果要装上所有的语言,可以指定:
tesseract-ocr-all
。
调用
调用命令的格式为:
tesseract [image_path] [file_name]
例:
tesseract ./test.ocr.png stdout tesseract ./test.ocr.png outfile
图形界面
还有图形界面工具gImageReader:
sudo apt-get install gimagereader
用ImageMagic进行预处理
sudo apt install imagemagick
调整图片大小
convert -resize 150% [input_file_path] [output_file_path]
把彩色图黑心为灰度图
convert [input_file_path] -type Grayscale [output_file_path]
把图片二值化
convert [input_file_path] -threshold 55% [output_file_path]