Деление текста на символы

Одна из наиболее недорешенных задач в OCR - сегментация отдельных символов. Это происходит потому, что границы между буквами часто нечеткие, штрихи соседних букв соприкасаются, и это мешает делить слова на символы. Например, две или более буквы распознаются как одна, или одна - как две или три. Существуют шрифты, у которых, несмотря на общее хорошее качество печати, встречаются склейки (например, в шрифте Tense). Порою, увидев отсканированное изображение, в котором буквы сливаются на большей площади листа с текстом, можно заранее сказать, что данный текст не распознается корректно, и сэкономить свое время, даже не запустив программу на распознавание.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: