Архивы документов

Подсистема архивации документов управляет архивами документов. Архив документов – это то, что собственно хранит электронный документ. При этом может храниться либо образ документа, либо его содержание, либо и то и другое. Помимо собственно хранения документов, архив должен обеспечивать навигацию по иерархии документов и их поиск.

В отличие от поиска по атрибутам документов, который имелся и в системах предыдущего класса, архивы документы должны обеспечивать полнотекстовый поиск по содержимому текстовых фрагментов в документе. В предельном случае поисковый механизм должен обладать некоторым интеллектом, то есть обеспечивать поиск близких грамматических конструкций, а также поиск близких по смыслу слов.

В отличие от систем предыдущего класса, в архивах хранятся сами документы, и поэтому система должна обеспечивать разграничение прав доступа к документам. Пользователь может идентифицироваться либо посредством сетевого имени, либо с помощью специального имени и пароля, определенного в системе управления архивом. Помимо разделения прав доступа на уровне пользователей система должна обеспечивать выделение групп пользователей или ролей.

Следующей функцией архива документов является обеспечение возможности групповой работы с документами, находящимися в стадии создания - это функция блокировок документов или Check-In/Check-Out контроль. Если один из пользователей системы начинает редактировать документ, он блокируется для доступа других пользователей до тех пор, пока с ним не закончится работа.

Еще одной функцией архива является поддержка контроля версий. Версии документов могут фиксироваться либо автоматически, либо по инициативе пользователя. В случае необходимости пользователь может вернуться к одной из предыдущих версий документа.

К сервисным функциям архива документов относятся возможность создания резервных копий документов без прекращения работы системы, интеграция с системами обеспечения оптимальной стоимости хранения данных и прочее.

Подсистема ввода документов и обработки образов документов выполняет ввод документов в архив. Под этим понимается перевод документов из бумажного вида в электронный. В простейшем случае эта процедура сводится к простому сканированию. Однако, как правило, простого сохранения образа документа оказывается недостаточно.

Образ документа может потребовать так называемого аннотирования, наложения на образ документа различных дополнительных образов, выделений, текстовых пометок и прочее. Помимо этого, образ документа должен быть снабжен набором атрибутов, который позволит его идентифицировать в системе делопроизводства и в архиве документов. Эти операции производятся вручную.

Более сложной функцией является автоматическое распознавание содержимого образа документа и формирование документа, содержащего его текст. Для этого предназначены программы, относящиеся к классу ПО распознавания текста. Еще более сложной функцией является распознавание содержимого форм. При этом программа определяет наличие записей, в том числе и рукописных в определенных полях бланка документа, распознает его содержимое и автоматически заполняет значения атрибутов данного документа в системе. При необходимости значения определенных полей бланка может выбираться из определенного в системе справочника.

Дополнительно:

Перевод бумажных документов в электронную форму

Данная проблема подразделяется на два основных класса:

Персональный ввод бумажных документов. Ввод небольшого количества разнотипных бумажных документов осуществляется с помощью планшетных или персональных сканеров. После операции сканирования документ вручную индексируется путем заполнения карточки документа.

Массовый (поточный) ввод бумажных документов. Основное отличие от предыдущего состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести: систему ввода и хранения платежных поручений в банке, систему обработки анкет опроса населения, систему обработки результатов голосования.

При реализации технологии массового ввода документов можно рассматривать два основных класса задач:

1) Задача извлечения данных из бумажных документов. Например, имеется форма с результатами опроса населения. Необходимо ввести большое количество анкет, извлечь из них данные и загрузить в некоторую базу. В этом случае нас интересуют только извлеченные структурированные данные, а не сами изображения документов.

2) Задача извлечения данных из бумажных документов с сохранением изображения документа. Если вы обрабатываете не форму с опросами населения, а платежное поручение клиента, то имеет смысл после извлечения данных сохранить изображение документа для того случая, когда потребуется анализ исходного документа. Извлеченные данные можно опять-таки использовать двояко. Во-первых, эти данные имеет смысл напрямую загружать в банковскую систему, а, во-вторых, их можно использовать для организации хранения и быстрого поиска изображений платежных поручений. В случае применения извлеченных данных для индексирования изображения документа необходимо разделять типы извлеченных данных. В основном на выходе используются структурированные данные, и тогда для поиска применяется атрибутивная индексация, но бывают случаи, когда из документа извлекаются только неструктурированные данные (например при распознавании всего содержимого документа). Тогда требуется полнотекстовая индексация. Возможна также и промежуточная задача, когда сохраняется не все изображение, а только его часть, допустим подпись клиента на чеке или платежном поручении.

Работа системы массового ввода разбивается на две основные части - подготовка обработки документа и собственно обработка.

Подготовка обработки документа

Чтобы начать работать с каким-либо документом, необходимо описать его для использования в системе, а именно создать и зарегистрировать новый класс документа. При этом первым шагом должно быть получение отсканированного изображения незаполненного документа и создание формы по отсканированному шаблону в том случае, если мы регистрируем уже кем-то разработанный документ, либо создание формы для нового документа.

После этого с помощью специального программного модуля (Редактор Форм) требуется определить те поля, которые будут распознаваться системой или заполняться оператором с клавиатуры, а также указать типы данных обрабатываемых полей документа. Для распознаваемых полей следует определить специальные атрибуты модуля с целью повышения точности распознавания, например наличие рукописных цифр, которые находятся в специальных рамках, или символов, напечатанных на машинке. Также можно задать специальные правила проверки корректности обрабатываемых полей документа.

Для конкретного класса документа можно создать несколько форм ввода, используемых либо при редактировании неправильно распознанных данных, либо при ручном вводе полей документа. Возможность создания нескольких форм ввода позволяет назначать для конкретного пользователя конкретные поля для редактирования, что значительно повышает его производительность. Например, в документе имеется рукописное поле, которое не подлежит распознаванию. Создается форма ввода, где есть только одно это поле. Оператор осуществляет ввод только данного конкретного поля, что значительно увеличивает производительность за счет появления в его работе элементов автоматизма.

Для конкретного класса документа, с помощью Редактора Модели Ввода, можно разработать специфичную модель обработки документа, которая определяет операции обработки конкретной копии документа.

Также процесс подготовки документа к вводу в систему необходимо дополнить настройками экспорта документа (Редактор Экспорта) в архивную систему. Данная настройка заключается в установке соответствия между полями формы документа (распознанными или введенными вручную) и полями карточки документа архивной системы. Немаловажной особенностью является способность модуля настройки привязывать содержимое поля документа к проверке на вхождение в справочники архивной системы. Например, если в Редакторе Форм было описано поле "Номер клиента" и к нему прикреплен конкретный справочник системы управления документами, а в процессе ввода был распознан номер, которого нет в этом справочнике, следовательно, возникла исключительная ситуация, которую можно решать двумя методами -или повторно обработать документ, или ввести новый номер в справочник.

После регистрации нового класса документа система готова к работе с реальными документами, предназначенными для сканирования.

Обработка документа

Одной из возможностей повышения эффективности системы ввода документов является предварительная подготовка документов для сканирования. Перед сканированием необходимо отсортировать документы различных классов и сформировать пакеты документов. Каждый пакет может сопровождаться специальным титульным листом с кодом идентификации данного пакета. Это позволяет одновременно сканировать пакеты с документами разных классов без дополнительных задержек.

После сканирования документы автоматически направляются на операцию распознавания, непосредственно перед которым система осуществляет ряд операций, улучшающих изображение, а значит, и точность распознавания. Выполняются такие операции, как выравнивание, удаление шума и линий, восстановление символов и др. Система может распознавать печатный текст, рукописные цифры и специальные отметки. Также возможно одновременное использование нескольких распознающих модулей. При этом, безусловно, теряется скорость, но точность распознавания значительно повышается. Очень важно сказать, что при этом значительно понижается возможность пропуска некорректных данных. В зависимости от результатов распознавания, поле помечается как корректное или некорректное. Для повышения надежности данных после распознавания применяются определенные пользователем правила проверки данных. Например, можно проверить, имеется ли распознанная информация в вашей базе данных. Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных опять-таки применяются правила проверки данных - на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. После извлечения данных из документа необходимо провести операцию экспорта документов и извлеченной информации в систему управления документами.

В результате выполнения всех этих операций документы заносятся в архив и становятся доступными для всех сотрудников предприятия. Необходимо отметить, что на каждом этапе обработки документов может использоваться произвольное количество станций (серверов) обработки.

Важную роль в системе электронного документооборота играет подсистема управления стоимостью хранения документов. Совершенно очевидно, что при сохранении в архиве образов документов объемы хранения могут быстро расти и достигать значительных объемов. При этом интенсивность обращения к документам, находящимся в архиве далеко не равномерна. Документы, находящиеся в работе, очевидно, требуются достаточно часто, в то время как доступ к документам, работа с которыми уже завершена, осуществляется очень редко. Соответственно, система может обеспечивать различную оперативность доступа к различным документам. Так как стоимость хранения документов в архиве, как правило, обратно пропорциональна скорости доступа, то можно воспользоваться отмеченной закономерностью для оптимизации стоимости содержания архива.

Системы управления стоимостью хранения как раз и решают данную задачу. Обеспечивая возможность работы с различными периферийными устройствами – накопителями на жестких магнитных дисках, On-Line оптическими стойками, накопителями на магнитной ленте и CD-ROM устройствами. Система обеспечивает автоматический перенос данных c на более “дешевые” устройства в случае, если доступ к ним осуществляется недостаточно часто.

Система маршрутизации документов занимается непосредственно пересылкой документов на рабочие места исполнителей, осуществляет сбор информации о текущем статусе документов и консолидацию документов по завершению работы с ними на отдельных этапах, а также обеспечивает средства доступа к информации о текущем состоянии работ с документами.

Системы маршрутизации, как правило, содержат средства описания типовых маршрутов прохождения документов в организации. На основании разработанных маршрутных схем могут порождаться экземпляры бизнес-процессов работы с документами. В данном случае можно говорить о жесткой маршрутизации.

Альтернативой является так называемая свободная маршрутизация, при которой маршрут формируется “стихийно”. Каждый пользователь системы, обладающий соответствующими правами, может определить следующего или следующих исполнителей документа. Администратор системы и менеджер, курирующий конкретный бизнес-процесс, может контролировать текущее состояние маршрута и вносить различные корректирующие воздействия в случае необходимости.

При маршрутизации документов возможны две схемы, называемые Off-Line и On-Line.

В первом случае при пересылке документа на рабочее место пользователя происходит его физическое извлечение из архива документов и доставка (например, с помощью электронной почты) на рабочее место клиента. По завершению работы документ обратно погружается в архив. В этом случае система маршрутизации сама является клиентом архива документов и вносит соответствующую информацию в учетную базу данных.

Вторая схема не подразумевает физического перемещение документа. Система маршрутизации документов обеспечивает клиенту интерфейс для доступа к заданиям на обработку документов.

Развитием систем маршрутизации документов являются WorkFlow-системы, или системы комплексной автоматизации бизнес-процессов. В отличие от систем маршрутизации документов, объектом маршрутизации в них является совокупность данных используемых в некотором бизнес-процессе. Пользователь получает на рабочее место информацию о том, что он должен сделать и все необходимые для этого данные. WorkFlow приложение определяет, какое приложение должно быть запущено для реализации функций на данном рабочем месте, и загружает в него необходимые данные. Парадигма WorkFlow системы предполагает, что пользователь должен выполнять только необходимые функции, всю рутинную работу – определение последовательности действий, доставку необходимой информации, контроль своевременности исполнения работы и прочее выполняет система WorkFlow.

Функции WorkFlow приложений выходит за рамки функций систем документооборота, однако, технологии, используемые в данных приложениях очень близки технологиям, используемым в системах маршрутизации документов, к тому же маршрутизация документов может рассматриваться как частный случай задачи построения WorkFlow систем, поэтому мы уделили им некоторое внимание.

Дополнительно:

6 7 8 9 10 11 12

Подборка статей по вашей теме: