Загальна інформація щодо аналізу макета сторінки
Аналіз макета сторінки може проводитися як автоматично, так і вручну. Автоматичний аналіз проводиться по кнопці 3-Розпізнавання - авторозмітку. CuneiForm розрізняє області з текстом, таблиці та малюнки. Після цього можна розпізнати сторінку, натиснувши на кнопку 4-Розпізнавання.
Ручне виділення блоків може знадобитися, якщо:
- Ви хочете розпізнати частину сторінки;
- в наслідок автоматичного аналізу блоки були виділені невірно.
Типи блоків
Блоки - це взяті в рамку ділянки зображення. Блоки виділяють для того, щоб вказати системі, які ділянки відсканованої сторінки потрібно розпізнавати й у якому порядку.
Також з ним відтворюється вихідне оформлення сторінки.
Блоки різних типів мають різні кольори рамок.
При обробці зображень виділяють блоки наступних типів:
Текстовий блок - блок використовується для позначення тексту. Він повинен містити лише одноколоночний текст. Якщо всередині тексту містяться зображення, виділіть їх в окремі блоки.
|
|
Таблиця - цей блок використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває даний блок на рядки та стовпці і формує табличну структуру. У вихідному тексті даний блок передається таблицею. Ви можете виділити і відредагувати таблицю вручну.
Зображення - цей блок використовується для позначення зображень. Він може містити зображення або будь-яку іншу частину тексту, яку Ви хочете передати в розпізнаний текст як растрового зображення.
Параметри автоматичного аналізу макета сторінки
При автоматичному аналізі макета сторінки CuneiForm сам виділяє блоки, що містять тексти, таблиці і малюнки.
Автоматичний аналіз запускається кнопкою 3-Розмітка, де відбувається розмітка на блоки кожного типу. До запуску розпізнавання необхідно встановити параметри розмітки і розпізнавання, які були описані в лабораторній роботі № 4.