Розпізнавання бланків

Важливою особливістю програми FineReader є можливість розпізнавання бланків. Бланк являє собою відформатований документ, у спеціальні поля якого вносяться дані. Типовими прикладами бланків є анкети. Формат бланка може бути досить вигадливим і не нагадувати ні книжкову, ні журнальну сторінку.

Особливість роботи з бланками полягає в тому, що приходиться мати справу з об'ємним пакетом документів однакового формату, заповнених різними людьми. У таких документах розрізняється зміст заповнених полів, а стандартні заголовки не представляють інтересу. Дані, отримані з набору бланків, звичайно підлягають наступній обробці, наприклад статистичної. Для обробки бланків призначений спеціальний додаток FineReader Forms.

1. Для розпізнавання вмісту бланка необхідно попередньо створити шаблон форми. Для цього служить команда Сервіс - Шаблони. У діалоговому вікні Шаблони, що відкрилося, можна створити новий шаблон або відкрити для редагування вже наявний.

2. У цьому випадку програма відкриває вікно Редактор шаблонів і додаткове діалогове вікно Параметри. У цьому вікні розміщають блоки, що відповідають полям бланка і для кожного блоку вказують тип значення, що утримується в ньому. Блоки, що містять дані, які задаються користувачем, позначаються як експортовані. Дані можуть записуватися в текстовий файл або заноситися в базу даних як записи.

3. Створений шаблон використовується на етапі сегментації. Сегментація в даному випадку складається не в реальній розбивці сторінки на блоки, а в накладенні шаблона. Положення шаблона корегується відповідно до того, наскільки рівно був розміщений бланк при скануванні.

4. Заключний етап складається в розпізнаванні вмісту бланка. Результат представляється у виді форми, що містить назви полів і їхній зміст. Послідовність розпізнаних бланків може бути збережена в рамках єдиної бази даних для наступної обробки.

Алгоритм сканування фотографій:

1. Для того щоб провести сканування за допомогою програми FineReader, необхідно запустити цю програму (Пуск – Програми – ABBYY FineReader 6.0 Corporate Adition) і ввімкнути сканер.

2. Покладіть фотографію на світло чуттєвий апарат сканера. Накрийте кришкою.

3. Сканування почніть з клацання по кнопці на панелі інструментів Scan&Read. У з’явившомуся списку виберіть пункт Сканировать изображение.

4. У з’явившомуся вікні Colorado встановіть розмір паперу та вигляд фотографії у кольорах та натисніть кнопку Сканувати .

5. Після сканування Натисніть кнопку Зберегти та виберіть зі списку та збережіть з розширенням

Алгоритм сканування тексту з графічними зображеннями:

1. Для того щоб провести сканування за допомогою програми FineReader, необхідно запустити цю програму (Пуск – Програми – ABBYY FineReader 6.0 Corporate Adition) і ввімкнути сканер.

2. Сканування сторінки виробляється за допомогою кнопки Сканувати на панелі інструментів Scan&Read. При натисканні на ній з’являється список, який вказує можливі види процесу сканування Открыть изображение, Сканировать изображение, Сканировать несколько страниц (рис. 2). Якщо необхідно відсканувати текст з декількох сторінок, то вибирати потрібно пункт Сканировать несколько страниц. Якщо необхідно відсканувати фотографію, то Сканировать изображение. За допомогою пункту Опції можна змінити настроювання сканера у діалоговому вікні Опції (рис.3).

 
 

Рис.2. Список поряд з кнопкою Сканувати.


Рис.3. Діалогове вікно опції у списку Сканувати.

Програма здатна працювати зі сканером як безпосередньо, так і через протокол TWAIN. При безпосередній взаємодії зі сканером можливість сканування кольорових зображень не використовується, тому що передбачається, що текст у будь-якому випадку є однокольоровим. Якщо до комп'ютера підключено кілька сканерів або сканер був підключений після установки програми FineReader, варто клацнути на кнопці Вибрати сканер. У цьому випадку програма проведе пошук підключених до комп'ютера сканерів і дозволить вибрати потрібний. Коли сканер обраний, активізуються два прапорці в нижній частині діалогового вікна. Якщо установити прапорець Показувати діалог TWAIN-драйвера сканера, то сканування виробляється через протокол TWAIN з відображенням спеціального діалогового вікна. У противному випадку програма працює зі сканером прямо. Використовувати протокол TWAIN має сенс тільки в тому випадку, коли робота прямо неможлива або дає неякісні результати. Прапорець Показувати опції перед початком сканування застосовують тільки в тому випадку, коли паперові сторінки документа істотно відрізняються один від одного. Це може бути викликано, наприклад, властивостями папера або тим, що різні сторінки друкувалися в різний час і різними засобами. У цьому випадку перед скануванням кожної сторінки відкривається діалогове вікно настроювання сканера, щоб користувач міг відрегулювати якість процесу.

Сам процес сканування відбувається в автоматичному режимі. Якщо потрібно обробити багато сторінок, то найкраще спочатку всі їх відсканувати, а вже потім приступати до розпізнавання. Це зв'язано з тим, що сканування вимагає присутності користувача через необхідність керування сканером (наприклад, для зміни сторінок), а розпізнавання може відбуватися в автоматичному режимі.

3.

 
 

Після вибору типу сканування з’явиться вікно (рис.4)

Рис. 4. Вікно налагодження параметрів сканування.

Це вікно дозволяє встановлювати параметри сканованого тексту (його кольорову забарвленість (чорно-біле, кольорове, з відтінками сірого), роздільну здатність зображення – саме оптимальне 300 dpi, розмір паперу (А4, В5..), розмір вказано у дюймах).

4. Для того щоб почати сканування необхідно натиснути кнопку Сканувати у цьому вікні .

5. Після того як відсканований лист вже з’явився у панелі Пакет у лівій частині вікна FineReader (рис. 1) закрийте вікно Colorado.

6. Якщо зображення після сканування розташоване не в тому напрямку, який необхідно, то у меню Изображение можна змінити напрямок за допомогою меню Повернуть по часовой стрелке, Повернуть против часовой стрелки, Повернуть на 1800.

7. Тепер за допомогою панелі Інструменти (рис.5) треба від сегментувати документ. За допомогою елементів керування цієї панелі задають послідовність фрагментів тексту в підсумковому документі.

Сегментація тексту слугує для того, що відокремити текст від графічних зображень. Це має велике значення для наступного етапу Розпізнавання тексту, тому що графічні зображення не підлягають розпізнаванню.

За допомогою кнопок (текст) та (графічне зображення). Відокремлюємо текст від графічних зображень.

 

Рис. 5. Панель Інструменти

7. Після цього переходимо до наступного етапу розпізнавання тексту, але текст може бути на різних мовах і це потрібно вказати за допомогою кнопки та у списку вибрати

8. Після цього, якщо Ви скануєте текст, то починаєте етап Розпізнавання за допомогою кнопки . У з’явившомуся списку можна вибрати для швидшого розпізнавання Распознать все.

9. Після завершення розпізнавання можна текст перевірити, відредагувати.

10. Після цього його необхідно зберегти за допомогою кнопки Сохранить у списку вибрати Сохранить текст в файл, надати файлу необхідне ім’я та зберегти у Вашу папку з розширенням *.doc.

 

Практичне завдання. Зберіть матеріал з історії України про 10 гетьманів України. Відскануйте їх фотографії за алгоритмом, який вказаний у рекомендаціях, збережіть їх з розширенням *.jpg. Відскануйте автобіографічну інформацію про них та збережіть ці файли з розширенням *.doc. Скомпонуйте цю інформацію та надайте у вигляді невеликої доповіді у розмірі не менш 10 аркушів у роздрукованому вигляді та в електронному.

Основна література

1. Ярмуш О. В., Редько М. М.. Інформатика і комп’ютерна техніка: Навч. посібник. – К.: Вища освіта, 2006. – 359с. – С. 197-220.

2. Інформатика. Комп’ютерна техніка. Комп’ютерні технології: Підручник / Під ред. В. А. Баженова – К.: Каравела, 2003. – 464 с. – С. 146– 211.

3. Інформатика: Комп’ютерна техніка. Комп’ютерні технології: Посіб. / За редакцією О. І. Пушкаря, – К.: ВЦ «Академія», 2001.– 696с. – С. 275-349.

4. Баженов В. А. Інформатика. Комп’ютерна техніка. Комп’ютерні технології: Підручник. – 2-ге видання, – К.: Каравела, 2007.– 640с. – С. 146-210.

 

Питання та завдання для самоконтролю та самоперевірки

1. Що таке шаблон Word?

2. Пошук та заміна тексту.

3. Перевірка орфографії.

4. Застосування паролю для захисту інформації.

5. Створення приміток. Установлення виносок.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: