Автоматизация ввода информации в компьютер
Одной из основных задач информатики является разработка и внедрение средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Основным методом такого перевода является сканирование.
Сканирование – это технологический процесс, в результате которого создается графический образ. Существуют несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая точка). В результате создается графический файл, в котором хранится растровое изображение исходного документа. Количество точек определяется как размером изображения, так и разрешением сканера.
5.3.1. Сканеры для ввода текстов и иллюстраций:
Ручные сканеры. Не имеет движущихся частей, сканирование производится путем перемещения сканера по документу. Наименее качественное изображение. Очень узкая полоса сканирования.
|
|
Листовые сканеры. За одну операцию сканируется лист стандартного формата. Блок сканирования неподвижен, а бумага протягивается мимо него как в принтере. Гарантируют хорошее качество сканирования.
Планшетные сканеры. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Обеспечивают наилучшее качество и максимальное удобство при работе.
Связь сканера с операционной системой:
- Есть сканеры со специальной платой-контроллером, которая устанавливается в одно из гнезд материнской платы.
- Есть сканеры, которые подключаются к свободному параллельному порту (порту принтера).
- Для стандартизации программного интерфейса связи операционной системы и различных сканеров был создан протокол TWAIN, который должен поддерживаться и ОС и сканером.
С точки зрения компьютера, документ после сканирования превращается в набор точек, а не в текстовый документ. Проблема распознавания текста в составе графического изображения является весьма сложной.
Ранее распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные программные системы назывались OСR (оптическое распознавание символов), они опирались на специально разработанные шрифты, облегчавшие такой подход. В последние годы появились совершенно новые алгоритмы распознавания образов и программы, построенные на этих алгоритмах, могут справляться с текстом, не ориентируясь на конкретный шрифт или алфавит, в том числе текст может быть и рукописным.
|
|
Наиболее широко известны и распространены программы отечественных производителей FineReader и CuneiForm.
Программа FineReader (ABBY Software). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.
Возможности:
- Работает с разными моделями сканеров.
- Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
- Позволяет редактировать распознанный текст и проверять его орфографию.
- Обучается неизвестным ей шрифтам и учитывает дефекты начертания букв.
- Сохраняет оформление документа, запоминая расположение текста в колонках, таблицы, рисунки и шрифтовое оформление бумажного оригинала.
- Распознает табличные данные и сохраняет их в формате электронных таблиц.
- Экспортирует результат напрямую в MS Word или Excel