Формоориентированный ввод данных. Данный метод используется для полной замены ручного ввода данных в компьютерные системы и в основном применяется для ввода данных из форм (стандартных, однотипных документов). В этом случае атрибуты документа будут использованы для составления индекса документа для его поиска и хранения в базе или архиве.
Какие методы составления индексов документов Вы знаете?
Ввод ключевых слов. В этом случае одно или несколько ключевых слов будет использоваться в качестве индексов для конкретного изображения. В дальнейшем возможен быстрый доступ к изображению документа с применением введенных ключевых слов – индексов
Что такое сканирование и какие требования предъявляются к сканерам?
Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображений и другие
|
|
Ввод документов предъявляет достаточно низкие требования к качеству сканирования, обычно бывает достаточно разрешения 200-300 точек / дюйм. Профессиональные издательские сканеры имеют разрешение порядка 1600-2800 точек / дюйм и даже персональные сканеры имеют разрешение порядка 600-800 точек / дюйм. Единственная отличительная особенность - автоматическая подача страниц документов и высокая скорость сканирования (от 10 до 200 листов формата А4 в минуту).
Что такое распознавание образов и какие методы распознавания Вы знаете?
Распознавание документа, анализ содержания документа и извлечение данных может осуществляются с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:
• OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление;
• ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;
• OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);
Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах
Какие требования предъявляются к программному обеспечению СМВ?
ПО для СМВ можно предъявить совокупность общих требований:
• Открытость. Система должна позволять включать в себя различные технологии и программные продукты в зависимости от конкретного приложения, даже если эти продукты поставляются другими фирмами. Необходима возможность интеграции с различными \уогкпо\у-системами и с системами документооборота.
|
|
• Возможность настройки. Пользовательский интерфейс должен быть настраиваемым для достижения максимальной эффективности работы операторов.
• Масштабируемость. Необходимо иметь возможность добавлять и уменьшать системные ресурсы при различных уровнях загрузки системы.
• Возможность администрирования. Пользователь должен иметь возможность гибкого управления системой. Необходимо иметь возможность контролировать используемые ресурсы и инструментарий для получения различных видов отчетов.
Какие классы СМВ Вы знаете и дайте их характеристику.
«Cognitive Forms» компании Cognitive Technologies и FineReader.
«Cognitive Forms» - российская система промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением операционных систем Windows 95 / NT и MacOS. Система принадлежит к классу OCR / ICR / OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox).
«FineReader» разработанный компанией ABBYY, положены три принципа, распознавания сформулированные при наблюдении за поведением животных и человека: Целостность, Целенаправленность и Адаптивность позволившие получить решение, использующее в своей основе принципы распознавания, характерные для живых систем, - технология Целостностного, Целенаправленного, Адаптивного распознавания (IPA-технология).
ТЕМА 6. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ
Что такое ИПС, каково ее назначение и какие типы ИПС Вы знаете?
Информационно-поисковая система (ИПС) - это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области.
Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.).
Какова структура ИПС???
Что такое «тезаурус» и каково его назначение?
Тезаурус - это словарь с неограниченной выборкой, то есть включающий в себя все слова, которые встретились составителю в доступных источниках. При этом число источников тоже может стремиться к бесконечности, включая лингвистические труды, словари, литературные произведения, записи устной речи и другие материалы.
Ключевые слова и их коды хранятся в специальном словаре – тезаурусе