Во многих областях человеческой деятельности требуется массовая обработка типовых документов. Таковы, например, обработка результатов переписи, работа с налоговыми декларациями, проведение Единого государственного экзамена, библиотечная работа, документооборот в крупной корпорации. Современные информационные технологии требуют, чтобы перед дальнейшей работой документы или другие бумажные носители символьной информации были переведены в электронную форму и подвергнуты первичной обработке. Для достижения этой цели используются разнообразные технические и программные средства. В первую очередь это сканеры, создающие графический электронный образ документа. Среди них надо отметить корпоративные сканеры, позволяющие быстро вводить большие пачки бумажных листов. Их применение позволяет в десятки раз ускорить ввод в компьютер типовых документов вроде опросного листа или налоговой декларации.
Однако сканер дает лишь графический образ документа, который крайне неудобен для компьютерной обработки. Во-первых, потому, что размер получаемого файла достаточно велик, а во-вторых, поскольку полученный образ не имеет внутренней структуры: в нем не выделены отдельные слова, рисунки, заголовки и т.д. Поэтому вторым и, пожалуй, более важным элементом системы автоматизированного ввода документов является программа оптического распознавания текстов OCR (Optical Character Recognition), позволяющая перевести документ из графической формы в символьную, которая занимает гораздо меньше места и допускает дальнейшую обработку. В нашей стране наибольшее распространение получила программа FineReader фирмы Abbyy, название которой некоторые даже считают синонимом системы оптического распознавания текста.
|
|
Еще одним элементом первичной обработки текстов являются программы проверки орфографии, позволившие значительно повысить уровень грамотности документов, подготовленных электронным способом. Примером такой системы является ОРФО компании «Информатик», применяющаяся, в частности, в русской версии текстового редактора Word. Отметим, что системы проверки орфографии чаще всего встраиваются в текстовые редакторы и программы оптического распознавания.
Среди других программ обработки текста следует назвать системы автоматизированного перевода с одного языка на другой. Рутинность перевода текстов, особенно технических, с момента появления самых первых компьютеров вызывала желание возложить эту нудную работу на их «железные мозги». Из отечественных систем можно назвать, например программные комплексы автоматизированного перевода Promt, Socrat, Stylus. По существу, они выдают не перевод, а подстрочник, который требует дальнейшей литературной обработки.
Опыт использования автопереводчиков показал, что наиболее важной их частью являются словари, что вызвало появление электронных словарей как отдельного программного продукта. Среди отечественных словарей можно назвать Lingvo от Abbyy и Контекст от «Информатики», разработанные для самых различных языков и областей применения.