Системы работы с текстами

Во многих областях человеческой деятельности требуется мас­совая обработка типовых документов. Таковы, например, обра­ботка результатов переписи, работа с налоговыми декларациями, проведение Единого государственного экзамена, библиотечная работа, документооборот в крупной корпорации. Современные информационные технологии требуют, чтобы перед дальнейшей работой документы или другие бумажные носители символьной информации были переведены в электронную форму и подверг­нуты первичной обработке. Для достижения этой цели использу­ются разнообразные технические и программные средства. В пер­вую очередь это сканеры, создающие графический электронный образ документа. Среди них надо отметить корпоративные скане­ры, позволяющие быстро вводить большие пачки бумажных лис­тов. Их применение позволяет в десятки раз ускорить ввод в ком­пьютер типовых документов вроде опросного листа или налого­вой декларации.

Однако сканер дает лишь графический образ документа, кото­рый крайне неудобен для компьютерной обработки. Во-первых, потому, что размер получаемого файла достаточно велик, а во-вторых, поскольку полученный образ не имеет внутренней струк­туры: в нем не выделены отдельные слова, рисунки, заголовки и т.д. Поэтому вторым и, пожалуй, более важным элементом систе­мы автоматизированного ввода документов является программа оптического распознавания текстов OCR (Optical Character Recognition), позволяющая перевести документ из графической формы в символьную, которая занимает гораздо меньше места и допускает дальнейшую обработку. В нашей стране наибольшее рас­пространение получила программа FineReader фирмы Abbyy, на­звание которой некоторые даже считают синонимом системы оп­тического распознавания текста.

Еще одним элементом первичной обработки текстов являются программы проверки орфографии, позволившие значительно по­высить уровень грамотности документов, подготовленных элект­ронным способом. Примером такой системы является ОРФО ком­пании «Информатик», применяющаяся, в частности, в русской версии текстового редактора Word. Отметим, что системы провер­ки орфографии чаще всего встраиваются в текстовые редакторы и программы оптического распознавания.

Среди других программ обработки текста следует назвать сис­темы автоматизированного перевода с одного языка на другой. Рутинность перевода текстов, особенно технических, с момента появления самых первых компьютеров вызывала желание возло­жить эту нудную работу на их «железные мозги». Из отечественных систем можно назвать, например программные комплексы автоматизированного перевода Promt, Socrat, Stylus. По существу, они выдают не перевод, а подстрочник, который требует дальнейшей литературной обработки.

Опыт использования автопереводчиков показал, что наиболее важной их частью являются словари, что вызвало появление электронных словарей как отдельного программного продукта. Среди отечественных словарей можно назвать Lingvo от Abbyy и Контекст от «Информатики», разработанные для самых различных языков и областей применения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: