Распознавание текста в командной строке с помощью Tesseract

Конечно, применение системы распознавания текста Tesseract не заменит использование FineReader, но применение в скриптах, например, для индексации отсканированных документов может быть полезным.

Я устанавливал из репозитариев OpenSUSE.

Берем какой-нибудь отсканированный текст, например:

britneyzone.ru/uploads/posts/2009-07/1248266118_tttr.jpg прямо скажем не очень хорошего качества, да еще и в несколько колонок.

Конвертируем jpeg в tif:

convert ./1248266118_tttr.jpg ./1248266118_tttr.tif


Распознаем в text.txt:

tesseract ./1248266118_tttr.tif ./text -l rus


На выходе получаем вполне читаемый текст вперемешку с некоторым количеством мусора:

и Принц полукровка».,
шему и предыдущий. пятый
фильм о Гарри Поттере.
,… Ученики Хогвартса за эти
годы заметно повзрослели. Де-
вочки поглядыватот на Гарри и
Рона как волоокне хишнтщы.
На уроках зелъеварения их на-
учшш готовить приворотное зе- 9
лье и того гляди.они применят
его \побы соблазнитъ Поттера.
и отвлскут отличиика от учебы.
Похоже, он и сам уже не прочь Ё
отбиться от рук и попивает в
пабе рядом с преподавателями
сливочное пиво. Его подружка '
Гермиона с ътгого пива пл ы- '
вет как сливочное масло Ё
на сковороде, но юные *
вохштсбники даже не пы-
таются воспользоваться 7
В этом фильме мы
узнаем о том, что у Гарри
есть чувства к Джштни
Уизли которая, когром-
пому сожалению своего
брата Рона, встречается

Комментарии (1)

RSS свернуть / развернуть
+
0
Ишь ты, даже по-русски понимает
avatar

yababay

  • 27 января 2012, 12:45

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.