/home/NoNameZ

Как-то мне потребовалось простое распознавание символов... Немного погуглив мой выбор пал на Tesseract-OCR. На данный момент разработкой Tesseract-OCR занимается компания Google, это может означать, что библиотека будет развиваться в ближайшем времени.

Для начала установим вспомогательные тулзы если их нет.

sudo apt-get install autoconf automake libtool

###Библиотека Leptonica

Tesseract-OCR для работы с изображениями использует библиотеку Leptonica, которая в свою очерель использует библиотеки libjpeg, libpng, libtiff и zlib которые нужно установить в первую очередь.

####Установка libjpeg, libpng, libtiff, zlib

Тут не паримся, а просто устанавливаем уже существующие.

sudo apt-get install libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev

####Установка Leptonica

wget http://leptonica.org/source/leptonica-1.72.tar.gz
tar -xvzf leptonica-1.72.tar.gz
cd leptonica-1.72
./configure
make
sudo make install

##Tesseract-OCR

####Установка

git clone https://github.com/tesseract-ocr/tesseract.git
cd tesseract
./autogen.sh
./configure
make
sudo make install
sudo ldconfig

####Установка tessdata

git clone https://github.com/tesseract-ocr/tessdata.git
cd tessdata
sudo mv  * /usr/local/share/tessdata

Если никаких ошибок не выскочило в процессе установки, то всё прошло гладко. Можно это проверить выполнив команду tesseract -v.

Вот в принципе и всё. Пользоваться Tesseract-OCR довольно таки просто: tesseract image.jpg out.

Установка Tesseract OCR для распознавания текста