Коррекция ошибок

Подход в построении шаблонов в программе TypeReader настроен так, чтобы найти базовые пиксели в широком диапазоне документов. Разорванные символы находятся автоматически, потому что программное обеспечение избегает пикселей в указанном доверительном интервале, которые могут исчезать в плохих изображениях. Программное обеспечение только должно найти места, в которых произошло разбиение или размывание символов. Caere также имеет частный алгоритм для разорванных символов.

Все программы оптического распознавания позволяют проводить проверку ошибок пользователем, используя одновременное исходное изображение в окне экрана: нет необходимости консультироваться с бумажной версией. К примеру, программа TypeReader просматривает строки текста для поиска ошибок клавишей табуляции (программное обеспечение помещает отсечение изображения за текстом так, чтобы Вы могли сравнивать текст с изображением без того, чтобы переместить взгляд). Ручной поиск ошибок в русских программах распознавания происходит аналогично.

Кроме того, уже к 1993 году была продемонстрировано, что можно делать компьютерные программы, использующие многие "человеческие" способы анализа текстового распознавания: OCR обучаются, чтобы делать лучше работу с неразборчивыми рукописными символами и метками, подобно зачеркиванию или подчеркиванию. Но пока дальше демонстрационных трюков эти достижения не слишком пошли.

Тема 1.8.1. Оптическое распознавание текстов.