Как-то мне потребовалось простое распознавание символов... Немного погуглив мой выбор пал на Tesseract-OCR. На данный момент разработкой Tesseract-OCR занимается компания Google, это может означать, что библиотека будет развиваться в ближайшем времени.
Для начала установим вспомогательные тулзы если их нет.
sudo apt-get install autoconf automake libtool
###Библиотека Leptonica
Tesseract-OCR для работы с изображениями использует библиотеку Leptonica, которая в свою очерель использует библиотеки libjpeg, libpng, libtiff и zlib которые нужно установить в первую очередь.
####Установка libjpeg, libpng, libtiff, zlib
Тут не паримся, а просто устанавливаем уже существующие.
sudo apt-get install libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev
####Установка Leptonica
wget http://leptonica.org/source/leptonica-1.72.tar.gz
tar -xvzf leptonica-1.72.tar.gz
cd leptonica-1.72
./configure
make
sudo make install
##Tesseract-OCR
####Установка
git clone https://github.com/tesseract-ocr/tesseract.git
cd tesseract
./autogen.sh
./configure
make
sudo make install
sudo ldconfig
####Установка tessdata
git clone https://github.com/tesseract-ocr/tessdata.git
cd tessdata
sudo mv * /usr/local/share/tessdata
Если никаких ошибок не выскочило в процессе установки, то всё прошло гладко. Можно это проверить выполнив команду tesseract -v.
Вот в принципе и всё. Пользоваться Tesseract-OCR довольно таки просто: tesseract image.jpg out.